zoukankan      html  css  js  c++  java
  • 潭州课堂25班:Ph201805201 爬虫高级 第四课 sclapy 框架 crawispider类 (课堂笔记)

    以上内容以 spider 类 获取 start_urls 里面的网页

    在这里平时只写一个,是个入口,之后 通过 xpath 生成 url,继续请求,

    crawispider 中 多了个  rules 

    rules 中的参数

      link_extractor  用来定义需要提取的连接

        allow=()     满足()中正则表达式的 url 会被提取,如果为空则全部匹配,

        deny=()     满足()中正则表达式的 url 不提取,优先级高于allow,

      callback   回调函数

      follow

    实例:

    新建个项目: scrapy startproject  tenxun2

    cd 到 tenxun2 目录下,创建执行文件, -t crawl 指的是个模板,如果不写,默认是 spider 类的模板,

      scrapy genspider -t crawl xxx xxx.com

     

    运行

    运行命令: scrapy crawl ten

  • 相关阅读:
    java面向对象(五)之多态
    java集合(list,set,map)
    jQuery基础
    Numpy详解
    Pandas详解一
    Linux 解压缩
    Linux 磁盘挂载
    Linux 磁盘管理
    su和sudo命令详解
    Linux查看文件命令
  • 原文地址:https://www.cnblogs.com/gdwz922/p/9758309.html
Copyright © 2011-2022 走看看