爬虫项目类相关属性

zoukankan html css js c++ java

爬虫项目类相关属性
一.爬虫项目类相关属性
- name 。爬虫名称，是定义Spider 名字的字符串。Spider 的名字定义了Scrapy 如何定位并初始化Spider，它必须是唯一的。不过我们可以生成多个相同的Spider 实例，数量没有限制。
- allowed_domains 。允许爬取的域名，是可选配置，不在此范围的链接不会被跟进爬取。
- start_urls 。它是起始URL列表，当我们没有实现start_requests（）方法时，默认会从这个列表开始抓取。
- custom_ settings 。它是一个字典，是专属于本Spider的配置，此设置会覆盖项目全局的设置。此设置必须在初始化前被更新，必须定义成类变量。
- crawler 。它是由from_crawler（）方法设置的，代表的是本Spider 类对应的Crawler 对象。Crawler 对象包含了很多项目组件，利用它我们可以获取项目的一些配置信息，如最常见的获取项目的设置信息，即Settings 。
- start_ requests（）。此方法用于生成初始请求，它必须返回一个可迭代对象。此方法会默认使用start _ urls 里面的URL 来构造Request ，而且Request 是GET 请求方式。如果我们想在启动时以POST方式访问某个站点，可以直接重写这个方法，发送POST请求时使用FormRequest即可。
- parse（）。当Response 没有指定回调函数时，该方法会默认被调用。它负责处理Response，处理返回结果，并从中提取想要的数据和下一步的请求，然后返回。该方法需要返回一个包含Request或ltem的可迭代对象。
- closed（）。当Spider关闭时，该方法会被调用，在这里一般会定义释放资源的一些操作或其他收尾操作。
查看全文

相关阅读:
URL重定向功能与APS.NET的固化功能结合
 How can I share types when generate WebSevice proxies using local paths
C# Coding Standard Naming Conventions and Style
VS自动化对象模型
 odac 如何捕捉错误odac 如何捕捉错误
 webbrower应用实例
 webbrower在同一个窗口打开新增窗口
 [DELPHI]$2501錯誤處理
 暴力破解例子
 webbrower连接在新form中显示

原文地址：https://www.cnblogs.com/baohanblog/p/12679044.html

爬虫项目类相关属性

一.爬虫项目类相关属性