zoukankan      html  css  js  c++  java
  • scrapy 教程

    pip install Scrapy

    结果报错,那就一个一个安装吧

    一、安装 

    1、pip install wheel

    后面的都一样

    pip install lxml
    pip install pyopenssl
    pip install Twisted
    pip install Pywin32
    pip install scrapy
    中间有的指令报错,但都是socktime out 类型的,重新执行一遍指令就可以了

    二、 简单教程

    1、创项工程
     
    #以爬取http://www.meijutt.com/alltop_hit.html  美剧天堂为例
    '''1、创项工程
    打开命令行cmd '''
    
    scrapy startproject meijutt
    项目创建成功,看下目录结构
    cd meijutt
    tree /F
    • scrapy.cfg:项目的配置文件
    • items.py:该文件定义了待抓取域的模型
    • pipelines.py:项目的pipelines文件
    • settings.py:该文件定义了一些设置,如用户代理,爬取延时等
    • spiders/:该目录下存储实际的爬虫代码
    • middlewares.py: 爬虫中间件,该文件可定义随机切换ip或者用户代理的函数
     
  • 相关阅读:
    BZOJ 3522 Hotel
    BZOJ 1864 三色二叉树
    396595
    CodeForces
    CodeForces
    CodeForces
    E. 数字串
    算术基本定理总结
    Cyclic Nacklace 杭电3746
    Period
  • 原文地址:https://www.cnblogs.com/duole/p/8564874.html
Copyright © 2011-2022 走看看