zoukankan      html  css  js  c++  java
  • scrapy 教程

    pip install Scrapy

    结果报错,那就一个一个安装吧

    一、安装 

    1、pip install wheel

    后面的都一样

    pip install lxml
    pip install pyopenssl
    pip install Twisted
    pip install Pywin32
    pip install scrapy
    中间有的指令报错,但都是socktime out 类型的,重新执行一遍指令就可以了

    二、 简单教程

    1、创项工程
     
    #以爬取http://www.meijutt.com/alltop_hit.html  美剧天堂为例
    '''1、创项工程
    打开命令行cmd '''
    
    scrapy startproject meijutt
    项目创建成功,看下目录结构
    cd meijutt
    tree /F
    • scrapy.cfg:项目的配置文件
    • items.py:该文件定义了待抓取域的模型
    • pipelines.py:项目的pipelines文件
    • settings.py:该文件定义了一些设置,如用户代理,爬取延时等
    • spiders/:该目录下存储实际的爬虫代码
    • middlewares.py: 爬虫中间件,该文件可定义随机切换ip或者用户代理的函数
     
  • 相关阅读:
    FileDescriptor详解
    java序列化
    ObjectInputStream和ObejctOutputStream
    ByteArrayOutputStream
    ByteArrayInputStream
    PipedInputStream/PipedOutputStream
    字节输入流
    反义
    贪婪和非贪婪
    MYSQL数据库优化
  • 原文地址:https://www.cnblogs.com/duole/p/8564874.html
Copyright © 2011-2022 走看看