zoukankan      html  css  js  c++  java
  • 爬虫项目类相关属性

    一.爬虫项目类相关属性

    • name 。爬虫名称,是定义Spider 名字的字符串。Spider 的名字定义了Scrapy 如何定位并初始化Spider,它必须是唯一的。不过我们可以生成多个相同的Spider 实例,数量没有限制。
    • allowed_domains 。允许爬取的域名,是可选配置,不在此范围的链接不会被跟进爬取。
    • start_urls 。它是起始URL列表,当我们没有实现start_requests()方法时,默认会从这个列表开始抓取。
    • custom_ settings 。它是一个字典,是专属于本Spider的配置,此设置会覆盖项目全局的设置。此设置必须在初始化前被更新,必须定义成类变量。
    • crawler 。它是由from_crawler()方法设置的,代表的是本Spider 类对应的Crawler 对象。Crawler 对象包含了很多项目组件,利用它我们可以获取项目的一些配置信息,如最常见的获取项目的设置信息,即Settings 。
    • start_ requests()。此方法用于生成初始请求,它必须返回一个可迭代对象。此方法会默认使用start _ urls 里面的URL 来构造Request ,而且Request 是GET 请求方式。如果我们想在启动时以POST方式访问某个站点,可以直接重写这个方法,发送POST请求时使用FormRequest即可。
    • parse() 。当Response 没有指定回调函数时,该方法会默认被调用。它负责处理Response,处理返回结果,并从中提取想要的数据和下一步的请求,然后返回。该方法需要返回一个包含Request或ltem的可迭代对象。
    • closed()。当Spider关闭时,该方法会被调用,在这里一般会定义释放资源的一些操作或其他收尾操作。
  • 相关阅读:
    一个简单例子:贫血模型or领域模型
    eclipse从数据库逆向生成Hibernate实体类
    Hibernate unsaved-value 属性
    webservice和restful的区别
    Web Service 的工作原理
    Hibernate3的DetachedCriteria支持
    hibernate criteria中Restrictions的用法
    Google Gson 使用简介
    struts2 访问国际化资源 <s:text>作为属性
    EL表达式从request和session中取值
  • 原文地址:https://www.cnblogs.com/baohanblog/p/12679044.html
Copyright © 2011-2022 走看看