zoukankan      html  css  js  c++  java
  • scrapy框架安装及创建

    介绍:大而全的爬虫组件

    使用Anaconda

    conda install -c conda-forge scrapy

    一、安装:

    windows

    1.下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    耐心等待网页刷新

    pip3 install -i https://pypi.douban.com/simple wheel
    pip3 install "D:	yped_ast-1.4.0-cp37-cp37m-win_amd64.whl"
    pip3 install -i https://pypi.douban.com/simple pywin32
    pip3 install -i https://pypi.douban.com/simple scrapy

    linux

    pip3 install -i https://pypi.douban.com/simple scrapy

    二、创建

    1.创建项目

    scrapy startproject xx

     目录结构

    scrapy startproject 项目名称
    
    项目名称
        项目名称/
            - spiders                # 爬虫文件 
                ....
            - items.py                 # 持久化
            - pipelines                # 持久化
            - middlewares.py        # 中间件
            - settings.py             # 配置文件(爬虫)
        scrapy.cfg                    # 配置文件(部署)

    2.创建爬虫(根据提示)

    scrapy genspider autohome autohome.com

    3.启动爬虫

    scrapy crawl autohome
    scrapy crawl autohome --nolog # 不打印日志

    查看不同等级的日志

    scrapy crawl quotes -L INFO

     直接开启爬虫

    scrapy runspider <spider_file.py>

    调试

    scrapy shell url

    shell url的响应的html是: response

    下载

    scraopy view url
  • 相关阅读:
    Nginx入门
    Spring基础知识汇总 Java开发必看
    java ArrayList倒序
    1
    js event 的target 和currentTarget
    java 文件的写入和读取
    DOMContentLoaded与load的区别
    JS中先有Object还是先有Function?
    JSON.stringify的三个参数
    Java的泛型约束和限制
  • 原文地址:https://www.cnblogs.com/wt7018/p/11723200.html
Copyright © 2011-2022 走看看