zoukankan      html  css  js  c++  java
  • scrapy框架安装及创建

    介绍:大而全的爬虫组件

    使用Anaconda

    conda install -c conda-forge scrapy

    一、安装:

    windows

    1.下载 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

    耐心等待网页刷新

    pip3 install -i https://pypi.douban.com/simple wheel
    pip3 install "D:	yped_ast-1.4.0-cp37-cp37m-win_amd64.whl"
    pip3 install -i https://pypi.douban.com/simple pywin32
    pip3 install -i https://pypi.douban.com/simple scrapy

    linux

    pip3 install -i https://pypi.douban.com/simple scrapy

    二、创建

    1.创建项目

    scrapy startproject xx

     目录结构

    scrapy startproject 项目名称
    
    项目名称
        项目名称/
            - spiders                # 爬虫文件 
                ....
            - items.py                 # 持久化
            - pipelines                # 持久化
            - middlewares.py        # 中间件
            - settings.py             # 配置文件(爬虫)
        scrapy.cfg                    # 配置文件(部署)

    2.创建爬虫(根据提示)

    scrapy genspider autohome autohome.com

    3.启动爬虫

    scrapy crawl autohome
    scrapy crawl autohome --nolog # 不打印日志

    查看不同等级的日志

    scrapy crawl quotes -L INFO

     直接开启爬虫

    scrapy runspider <spider_file.py>

    调试

    scrapy shell url

    shell url的响应的html是: response

    下载

    scraopy view url
  • 相关阅读:
    谈自由 , ASP.NET Core才是未来?
    asp.net core 实现 api网关 进行 api版本控制
    Oracle查询语句参考
    Go语言
    软件测试
    软件设计的重构、重写、重载
    Office 365-sharepoint online
    Pandas入门
    调用Baidu云、人脸识别接口
    Oracle 11g 安装小记
  • 原文地址:https://www.cnblogs.com/wt7018/p/11723200.html
Copyright © 2011-2022 走看看