Python Scrapy 自动爬虫注意细节（1） - 走看看

zoukankan html css js c++ java

Python Scrapy 自动爬虫注意细节（1）

一、首次爬取模拟浏览器

在爬虫文件中，添加start_request函数。如：

def start_requests(self):
　　ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'}
　　yield Request("http://www.baidu.com", headers=ua)

需要导入：from scrapy.http import Request

二、自动爬取模拟浏览器

打开settings.py，为USER_AGENT赋值，如：USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'

如抓取不到目标网站数据，很有可能是这个地方协议没有做配置。

三、注释原起始页

如使用了start_requests方法，需要注释：start_urls = ['http://www.baidu.com/']

四、目标网站的爬虫协议

ROBOTSTXT_OBEY = False

五、数据处理管道启用

Settings配置文件，对ITEM_PIPELINES做配置，一般是：文件夹名.文件名.管道名，

查看全文

相关阅读:
DataTable 导出到Excel
asp.net 连接新浪微博
 ASP.NET中的HTTP模块和处理程序
 asp.net 前台获得url参数的最简单方法
 将Excel导入到DataTable （用ODBC方法连接）
下拉框控件dhtmlXCombo在ASP.NET中的使用详解
 iis站点 asp.net网站访问弹出提示框
 习惯的力量
 1.面向对象设计模式与原则
 5. Factory Method 工厂方法（创建型模式）

原文地址：https://www.cnblogs.com/defineconst/p/6216442.html

Copyright © 2011-2022 走看看