zoukankan      html  css  js  c++  java
  • scrapy框架爬虫应用

    跟着视频教程敲得,记录下来,免得忘记!

    成功搭建python2.7+Scrapy 环境后,使用windows下cmd进入想要建立项目的文件夹下

    1.输入命令:创建一个scrapy项目
    scrapy startproject demo(你的项目名称)


    2.定义item容器
    Item是保存爬取到的数据的容器,其使用方法和python字典类似,并且提供了额外保护机制来避免拼写错误导致的未定义字段错误

    3.编写爬虫

     

    在cmd中进入你项目的根目录,输入命令:
    Scrapy crawl dmoz 调用你命名蜘蛛名字为“dmoz”的蜘蛛去工作

    Scrapy crawl dmoz -o items.json -t json
    导出文件名为items.json 格式为json

    # coding = utf-8
    import scrapy
    from tutorial.items import DmozItem
    class DmozSpider(scrapy.Spider):
    name = "dmoz" # 必须是唯一的,你派出去爬取网站的蜘蛛的名字
    allowed_dowload = ['dmoz.org'] # (网站的域名)蜘蛛需要爬取的范围,超出这个范围就不会去爬
    star_urls= [
    'http://www.dmoz.org/Computers/Programing/Languages/Python/Books/'
    'http://www.dmoz.org/Computers/Programing/Languages/Python/Resources'
    ]
    # 爬取的起始路径,

    def parse(self, response):
    sel = scrapy.selector.Selector(response)
    sites = sel.xpath('//ul[@class="directory"]/li')
    items = []
    for site in sites:
    item = DmozItem()
    item['title'] =site.xpath('a/text()').extract()
    item['link'] = site.xpath('a/@href').extract()
    item['desc'] = site.xpath('text()').extract()
    items.append(item)
    return items

  • 相关阅读:
    读大道至简有感
    动手动脑7
    大道至简第七章第八章
    课后作业(接口与继承)
    大道至简第六章
    课后题以及动手动脑1 3题
    大道至简第五章
    课后作业和动手动脑(字符串)
    大道至简第四章
    课后作业及动手动脑
  • 原文地址:https://www.cnblogs.com/jinjidedale/p/5683534.html
Copyright © 2011-2022 走看看