zoukankan      html  css  js  c++  java
  • 爬虫Robots协议

     Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。)
     每个网站的Robots协议都在该网站的根目录下,例如百度的Robots协议的位置就是’https://www.baidu.com/robots.txt’ 或者京东的Robots协议就在’https://www.jd.com/robots.txt’
    下面给出一段京东的Robots的内容:

    User-agent: *
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User-agent: EtaoSpider
    Disallow: /
    User-agent: HuihuiSpider
    Disallow: /
    User-agent: GwdangSpider
    Disallow: /
    User-agent: WochachaSpider
    Disallow: /

    第一个的意思就是说对于所有的爬虫,不能爬取在/?开头的路径,也不能访问和/pop/*.html 匹配的路径。
    后面四个用户代理的爬虫不允许访问任何资源。

    所以Robots协议的基本语法如下:

    User-agent: 这里是爬虫的名字
    Disallow: /该爬虫不允许访问的内容
    ---------------------
    作者:Ars-Nova
    来源:CSDN
    原文:https://blog.csdn.net/qq_36346262/article/details/79344109
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    XCode
    容器中的诊断与分析4——live diagnosis——LTTng
    容器中的诊断与分析3——live diagnosis——lldb
    容器中的诊断与分析2——live diagnosis——perf
    容器中的诊断与分析1——简介
    HTTP之gRPC
    Markdown介绍
    目标指定法——S.M.A.R.T.
    Facebook token更新
    代理配置
  • 原文地址:https://www.cnblogs.com/gabrielle/p/9882209.html
Copyright © 2011-2022 走看看