zoukankan      html  css  js  c++  java
  • scrapy框架

    什么是scrapy框架:

    scrapy是一个基于Twisted异步框架的爬虫框架,scrapy具有异步性,效率高。
    scrapy是用于爬取结构化数据
    适合构建大型爬虫应用。
    
    scrapy安装配置
    lxml, wheel, Twisted, pywin32, scrapy
    

      

    项目的常见与运行

    创建:

      

    1. scrapy startproject 文件名
    2.cd 文件名
    3.scrapy genspider 目录名 域名
    

       

    运行:

    scrapy crawl 目录名
    scrapy crawl 目录名 --nolog 加个--nolog取消日志 但不会提示报错吗

      

    爬虫:

    # 爬虫类
    # scrapy.Spider爬虫类, 最牛逼的一个爬虫类
    class ZetaotaigouSpider(scrapy.Spider):
        # name为爬虫名
        # name唯一的标识了爬虫, 运行爬虫的时候会用的到, 所以爬虫名必须有, 且不能重复
        # 有时候运行并不需要爬虫名, 但是爬虫名不可以删掉, 删掉了就不是爬虫类
        name = 'zetaotaigou'
    
        # allow: 允许, domain: 域名
        # allowed_domains限定爬虫爬取的范围的.
        # allowed_domains = ['baidu.com']
    
        # start_urls: 起始url
        # 项目一启动, 会自动的对start_urls中的url发起请求
        start_urls = ['http://www.kekenet.com/Article/15577/']
    

      

    五大核心组件与数据流向

    组件: 爬虫   引擎  调度器  下载器   管道

    数据流向:

    爬虫  --(1.请求) --> 引擎 -- (2.请求) --> 调度器 --(3.请求) -->引擎 -- (4.请求) -->下载器 -- (5.请求) -->服务器-- (6.响应) -->下载器 -- (7.响应) -->引擎 -- (8.响应) --> 爬虫 --(9.item) -->管道

    scrapy框架中的数据解析

    response.xpath("xpath表达式")

    response.css("css选择器")

  • 相关阅读:
    Codeforces Round #681 (Div. 2, based on VK Cup 2019-2020
    浙江农林大学第十九届程序设计竞赛暨天梯赛选拔赛
    Educational Codeforces Round 97 (Rated for Div. 2)
    2018icpc南京区域赛的补题
    天梯赛的一些题目
    djangorestful framework (三)学习
    rest-framework之版本控制
    rest-framework之响应器(渲染器)
    rest-framework之分页器
    rest-framework之频率控制
  • 原文地址:https://www.cnblogs.com/gaodenghan/p/13679600.html
Copyright © 2011-2022 走看看