网站限制爬虫的两个办法:
robots协议存放在网站根目录,并不是所有的网站都有robots协议的
基本语法: User-agent:* 爬虫来源,*代表所有 Disallow:/ 不允许爬取的资源目录,/代表根目录
爬虫怎么遵守robots协议? 自动或人工识别robots协议,再进行内容爬取