zoukankan      html  css  js  c++  java
  • 潭州课堂25班:Ph201805201 爬虫高级 第二课 scrapy 框架 (课堂笔记)

    win 下安装 scrapy

    先安装 pip install wheel

    py 库下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    在这个网址中下载  Scrapy  和  twisted ,pywin32

    下载  twisted,在其所在文件夹十打开  cmd , pip install  安装 ,之后安装 Scrapy,

    用这行命令

    scrapy startproject pyjy

    测试是否成功,如果 成功 在  C:UsersAdministratordata  下将有新项目

     

    创建 spiders 文件,:打开该文件夹,在该文件夹下打开cmd,

    输入 scrapy genspider example example.com

    此时可以看到多了个 py 文件

    查看可执行文件: scrapy list

    运行命令: scrapy crawl example

    robots协议

    当 parse 方法没有运行,

     修改头文件

    豆瓣数据

     

     

     

     

    由 scheduler 发送访问请求,经过 engine 到达 downloader ,如果用户要对这些请求做配置,在这些模块之间有个下载中间件

    在这个中间件中实现用户对这三个模块间的数据流可配置的控制。

     spiders 对整个框架提供最裙的访问连接,同时对每次返回的内容进行解析,再次产生爬取请求,解析 downloader 返回的用户响应,产生爬取向,产生额外的爬取请求

    itempipelines 以流水线处理 spiders 产生的爬取向

    在 spiders 和 engine 之间还有个爬虫中间件,是对 spiders 产生的请求或爬取向进行再处理

     

     

     

     

     

     

     

  • 相关阅读:
    ndt histogram_direction
    rplidar & hector slam without odometry
    点云的基本几何计算
    rplidar测试
    使用ZXing.Net生成与识别二维码(QR Code)
    C# 中使用 ThoughtWorks.QRCode.dll 生成指定尺寸和边框宽度的二维码
    .NET 二维码生成(ThoughtWorks.QRCode)
    zxing二维码的生成与解码(C#)
    netsh interface portproxy的一个简单例子
    Redis 客户端连接
  • 原文地址:https://www.cnblogs.com/gdwz922/p/9712549.html
Copyright © 2011-2022 走看看