zoukankan      html  css  js  c++  java
  • scrapy spider

    spider

    定义:在spiders文件夹中由用户自定义,继承scrapy.Spider类或其子类

    Spider并没有提供什么特殊的功能。 其仅仅请求给定的 start_urls/start_requests ,并根据返回的结果(resulting responses)调用spider的 parse 方法。

     

    spider执行过程:

    1 scrapy crawl 爬虫名 -a parameter1=value1 parameter2=value2

    2 __init__函数执行

    3 如果start_urls为空,则调用start_requests(),返回一个迭代器;如果start_urls不为空,则获取一个url,调用make_requests_from_url(url),返回一个request

    5 获取到一个response后调用parse(response)

     

    主要字段

    name,allowed_domains(可以是list),start_urls(可以是list)

    主要方法

    __init__

    start_requests()(未获取到url时被调用)

    make_requests_from_url(url)(获取到一个url后调用,返回request)

    parse(response)(获取到一个response后调用)

    log

    closed(reason)(爬虫关闭时调用)

     

    allowed_domains

    可选。包含了spider允许爬取的域名(domain)列表(list)。 当 OffsiteMiddleware 启用时, 域名不在列表中的URL不会被跟进。

    start_urlsURL

    列表。当没有制定特定的URL时,spider将从该列表中开始进行爬取。 因此,第一个被获取到的页面的URL将是该列表之一。 后续的URL将会从获取到的数据中提取。

    start_requests()

    该方法必须返回一个可迭代对象(iterable)。该对象包含了spider用于爬取的第一个Request。当spider启动爬取并且未制定URL时,该方法被调用。 当指定了URL时,make_requests_from_url() 将被调用来创建Request对象。 该方法仅仅会被Scrapy调用一次,因此您可以将其实现为生成器。该方法的默认实现是使用 start_urls 的url生成Request。如果您想要修改最初爬取某个网站的Request对象,您可以重写(override)该方法。

    例如,如果您需要在启动时以POST登录某个网站,你可以这么写:

    def start_requests(self): return [scrapy.FormRequest("http://www.example.com/login", formdata={'user': 'john', 'pass': 'secret'}, callback=self.logged_in)] def logged_in(self, response): # here you would extract links to follow and return Requests for # each of them, with another callback pass

    make_requests_from_url(url)

    该方法接受一个URL并返回用于爬取的 Request 对象。 该方法在初始化request时被 start_requests() 调用,也被用于转化url为request。默认未被复写(overridden)的情况下,该方法返回的Request对象中, parse() 作为回调函数,dont_filter参数也被设置为开启。 (详情参见 Request).

    parse(response)

    response没有指定回调函数时,该方法是Scrapy处理下载的response的默认方法。parse 负责处理response并返回处理的数据以及(/或)跟进的URL。 Spider 对其他的Request的回调函数也有相同的要求。该方法及其他的Request回调函数必须返回一个包含 Request 及(或) Item 的可迭代的对象。参数:response (Response) – 用于分析的response

  • 相关阅读:
    AUTOSAR-文档中所使用的UML文件
    开心一下-实现基于Java一个中文编程语言
    HDU 1026 Ignatius and the Princess I
    HDU 2553 (状压) N皇后问题 (2)
    UVa 11825 (状压DP) Hackers' Crackdown
    UVa 10891 (博弈+DP) Game of Sum
    LA 2965 Jurassic Remains
    HDU 2126 (背包方法数) Buy the souvenirs
    POJ 3984 迷宫问题
    POJ 3287 (基础BFS) Catch That Cow
  • 原文地址:https://www.cnblogs.com/zealousness/p/8748511.html
Copyright © 2011-2022 走看看