zoukankan      html  css  js  c++  java
  • 潭州课堂25班:Ph201805201 爬虫高级 第四课 sclapy 框架 crawispider类 (课堂笔记)

    以上内容以 spider 类 获取 start_urls 里面的网页

    在这里平时只写一个,是个入口,之后 通过 xpath 生成 url,继续请求,

    crawispider 中 多了个  rules 

    rules 中的参数

      link_extractor  用来定义需要提取的连接

        allow=()     满足()中正则表达式的 url 会被提取,如果为空则全部匹配,

        deny=()     满足()中正则表达式的 url 不提取,优先级高于allow,

      callback   回调函数

      follow

    实例:

    新建个项目: scrapy startproject  tenxun2

    cd 到 tenxun2 目录下,创建执行文件, -t crawl 指的是个模板,如果不写,默认是 spider 类的模板,

      scrapy genspider -t crawl xxx xxx.com

     

    运行

    运行命令: scrapy crawl ten

  • 相关阅读:
    线性最大子数组的求法(二)
    高难度智力题
    职业规划
    良好的学习习惯
    毕业生面试绝招
    编写Java程序最容易犯的21种错误
    spring02
    spring_01
    用soapUI生成客户端代码
    idea创建git分支
  • 原文地址:https://www.cnblogs.com/gdwz922/p/9758309.html
Copyright © 2011-2022 走看看