zoukankan      html  css  js  c++  java
  • python-scrapy-全站数据爬取-CrawlSpider

    提取符合正则要求的url
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule


    class SunSpider(CrawlSpider):
    name = 'sun'
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']

    # 链接提取器:可以根据指定的规则(allow)进行链接的提取
    link = LinkExtractor(allow=r'/political/index/politicsNewest?id=1&page=d+')

    rules = (
    # 规则解析器,可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
    Rule(link, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
    print(response)


    提取起始页面中所有的url
    import scrapy
    from scrapy.linkextractors import LinkExtractor
    from scrapy.spiders import CrawlSpider, Rule

    class SunSpider(CrawlSpider):
    name = 'sun'
    start_urls = ['http://wz.sun0769.com/political/index/politicsNewest?id=1&type=4&page=']

    # 链接提取器:可以根据指定的规则(allow)进行链接的提取
    link = LinkExtractor(allow=r'')

    rules = (
    # 规则解析器,可以将like取到的链接进行发送,follow=True所有符合要求的链接都可以取出来
    Rule(link, callback='parse_item', follow=True),
    )

    def parse_item(self, response):
    print(response)


  • 相关阅读:
    SPOJ375(树链剖分)
    最短路相关模板、总结
    Linux入门基础#2:Linux文件系统基本结构
    poj 2229 Sumsets (DP)
    Power BI for Office 365(七) Power BI站点
    HDU1045 Fire Net
    Android 系统搜索框(有浏览记录)
    Struts2 Action接收表单参数
    要注意的点
    复习昨天的,继续过Hard题目
  • 原文地址:https://www.cnblogs.com/shiyi525/p/14274569.html
Copyright © 2011-2022 走看看