zoukankan      html  css  js  c++  java
  • crawlSpider

    crawlSpider 作用于网站上有下一页和上一页的标签的内容,然后规则相同的网站进行爬取的效果

      启动命令 :

        1、创建项目文件

          scrapy startproject 项目名称

        2、cd 项目文件

        3、创建爬虫

          scrapy genspider -t crawl 爬虫名称 域名

      语句作用:

        1、link = LinkExtractor(allow=r'Items/')

        link是链接提取器,根据一定规则提取某类链接

        allow:表示的就是链接提取器提取链接的规则(这里面的规则是正则表达式)

        2、

        rules = (
          Rule(link, callback='parse_item', follow=False),
            )
       Rule是规则解析器,将链接提取器提取到的链接对应的页面数据进行指定形式的解析
       follow 是让链接提取器 继续作用到链接提取器提取到的链接所对应的页面中
          参数:
            False 不作用
            True 作用
      callback 回调函数,里面写link携带的内容的解析

     其余内容:
      与scrapy内容一致,因为crawlSpider就是Spider的一个子类,所以很多功能都是与Spider是一样的,所以大家熟练使用Spider,上手crawlSpider就很容易了
    
    
     
  • 相关阅读:
    JS 中如何判断字符串类型的数字
    使用script的src实现跨域和类似ajax效果
    JS跨域(ajax跨域、iframe跨域)解决方法及原理详解(jsonp)
    IOS上架截屏 屏幕快照
    IOS 证书失效
    80端口占用
    PHP环境 PDOException PDOException: could not find driver
    分布式部署
    AES 加密算法 跨语言
    AES 加密填充 PKCS #7
  • 原文地址:https://www.cnblogs.com/ifiwant/p/11756727.html
Copyright © 2011-2022 走看看