zoukankan html css js c++ java

（参考）爬虫4-爬虫引起的问题以及robots协议

网络爬虫引发的问题

网络爬虫的尺寸：

小规模，数据量小，爬取速度不敏感，使用Requests库，应用占比90%	中规模，数据规模较大，爬取速度敏感，Scrapy库	大规模，搜索引擎、爬取速度关键，定制开发
爬取网页玩转网页	爬取网站爬取系列网站	爬取全网

网络爬虫的‘骚扰’，对于web服务器有骚扰

网络爬虫的法律风险，服务器上的数据有产权归属

网络爬虫的泄露隐私

限制网络爬虫：

1、来源审查：判断user-agent字段，检查来访HTTP协议头

user-agent域，只响应浏览器或友好爬虫的访问

2、发布公告：Robots协议，告知爬取策略。

Robots协议介绍：爬取策略，在网站根目录下的robots.txt文件。

基本语法：user-agent *

可查看http://www.baidu.com/robots.txt

查看全文

相关阅读:
四月书籍
 iOS 第三方登录之 QQ登录
 百度面试经验之谈 ----------转
 OC浅析一
 书目列表
 UIStroryboard分类
 ios基础笔记（一）
IOS笔记－代码块（微博项目）－1.0
IOS控件内容对齐方式
 android同一个TextView设置不同颜色字体