zoukankan      html  css  js  c++  java
  • 爬虫Scrapy框架

    安装scrapy

    在安装过程中报错:解决方案
    通过在https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,然后下载:
     
     
    CP后是python 版本,32或者64是windows版本
    我使用的Python3.6,win10 64位,win+r,cmd,跳转文件保存目录下执行 
    pip3 install Twisted‑18.9.0‑cp36‑cp36m‑win_amd64.whl
    成功后继续pip3 install scrapy即可
    出现这种错误,解决方法:

    pip3 install pywin32

    Scrapy架构图:

    Scrapy Engine(引擎):负责Spider, ItemPipeline, Dowmloads, Scheduler 中间件的通讯, 信号,数据的传递等.

    Scheduler(调度器): 他负责接受引擎发过来的Request请求,并按照一定的方式进行整理排序,入队,当引擎需要时,交还给引擎.

    Downloads(下载器):

    Spider(爬虫):

    Item Pipeline(管道):

    Downloads Middlewares(下载中间件):

    Spider Middlewares(Spider中间件):

    制作Scrapy爬虫一共需要四步:

    新建项目: scrapy startproject

    明确目标: 编写items.py

    制作爬虫: spider/xxspider.py

    存储内容:

  • 相关阅读:
    selenium的
    condition版生产者与消费者模式
    Xpath语法详解
    requests库的基本使用
    urlib库的使用
    MVC5+EF6 入门完整教程六
    MVC5+EF6 入门完整教程五
    MVC5+EF6 入门完整教程四
    MVC5 + EF6 完整入门教程三
    MVC5 + EF6 入门完整教程二
  • 原文地址:https://www.cnblogs.com/zhaijihai/p/10315281.html
Copyright © 2011-2022 走看看