zoukankan      html  css  js  c++  java
  • Python Scrapy 自动爬虫注意细节(1)

    一、首次爬取模拟浏览器

    在爬虫文件中,添加start_request函数。如:

    def start_requests(self):
      ua = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'}
      yield Request("http://www.baidu.com", headers=ua)

    需要导入:from scrapy.http import Request

    二、自动爬取模拟浏览器

    打开settings.py,为USER_AGENT赋值,如:USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2050.400 QQBrowser/9.5.10169.400'

    如抓取不到目标网站数据,很有可能是这个地方协议没有做配置。

    三、注释原起始页

    如使用了start_requests方法,需要注释:start_urls = ['http://www.baidu.com/']

    四、目标网站的爬虫协议

    ROBOTSTXT_OBEY = False

    五、数据处理管道启用

    Settings配置文件,对ITEM_PIPELINES做配置,一般是:文件夹名.文件名.管道名,


  • 相关阅读:
    Emacs 安装 jedi
    PHP+ MongoDB
    Debian 7 安装 Emacs 24.3
    在Code first中使用数据库里的视图
    Emacs安装auto-complete
    Debian 7.4 中配置PHP环境
    ASP.NET MVC 下载列表
    JDicom使用指南
    Windows常用的DOS命令
    Entity Framework问题总结
  • 原文地址:https://www.cnblogs.com/defineconst/p/6216442.html
Copyright © 2011-2022 走看看