robots.txt在网站的根目录下
自动或人工识别robots.txt再进行内容爬取
约束性:建议性,不遵守协议,存在法律风险。
基本语法:
User-agent: *
Disallow: /
#注释 *所有 /代表根目录