Scrapy 爬虫日志中出现Forbidden by robots.txt - 走看看

zoukankan html css js c++ java

Scrapy 爬虫日志中出现Forbidden by robots.txt

　　爬取汽车之家数据的时候，日志中一直没有任何报错，开始一直不知道什么原因导致的，后来细细阅读了下日志发现日志提示“Forbidden by robots.txt”，Scrapy 设置文件中如果把ROBOTSTXT_OBEY设置为True的时候，会遵循robots.txt 规则进行爬虫；

　　这个时候我们只需要很流氓的把setting.py 文件中设置ROBOTSTXT_OBEY=False，这样就完事大吉了

Scrapy ROBOTSTXT_OBEY 默认设置True，会在抓取数据的时候首先会请求robots.txt文件，看看是否允许抓取，如果允许才会抓取。

查看全文

相关阅读:
vue前端使用JsonViewer进行json展示
 vue代理服务器proxy配置
 'vue-cli-service' 不是内部或外部命令，也不是可运行的程序或批处理文件。
Python中的高阶函数和内置高阶函数（abs,map,reduce,sorted,filter）
Ant Design Vue 通过v-decorator实现数据绑定
 Vue脚手架（vue-cli）搭建和目录结构详解
 如何使用Postman从XML提取变量
 【已解决】Vue格式化js自动加上冒号和分号
 vue.js安装与搭建
 Python函数中如何返回多个值？

原文地址：https://www.cnblogs.com/mengyu/p/8392906.html

Copyright © 2011-2022 走看看