zoukankan      html  css  js  c++  java
  • crawlSpider

    crawlSpider 作用于网站上有下一页和上一页的标签的内容,然后规则相同的网站进行爬取的效果

      启动命令 :

        1、创建项目文件

          scrapy startproject 项目名称

        2、cd 项目文件

        3、创建爬虫

          scrapy genspider -t crawl 爬虫名称 域名

      语句作用:

        1、link = LinkExtractor(allow=r'Items/')

        link是链接提取器,根据一定规则提取某类链接

        allow:表示的就是链接提取器提取链接的规则(这里面的规则是正则表达式)

        2、

        rules = (
          Rule(link, callback='parse_item', follow=False),
            )
       Rule是规则解析器,将链接提取器提取到的链接对应的页面数据进行指定形式的解析
       follow 是让链接提取器 继续作用到链接提取器提取到的链接所对应的页面中
          参数:
            False 不作用
            True 作用
      callback 回调函数,里面写link携带的内容的解析

     其余内容:
      与scrapy内容一致,因为crawlSpider就是Spider的一个子类,所以很多功能都是与Spider是一样的,所以大家熟练使用Spider,上手crawlSpider就很容易了
    
    
     
  • 相关阅读:
    [概率论]2017.5.9
    [概率论] 2017 5.2
    [离散数学II]2017.5.2
    [离散数学II]2017.4.25
    [概率论]2017.4.19
    [概率论] 2017.4.18
    [离散数学II]2017.4.18
    [离散数学II]2017.4.11
    [概率论]2017.4.12
    [概率论]2017.4.5
  • 原文地址:https://www.cnblogs.com/ifiwant/p/11756727.html
Copyright © 2011-2022 走看看