zoukankan      html  css  js  c++  java
  • 爬虫Robots协议

     Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议,只是一种建议,但是如果不遵守有可能会承担法律责任。)
     每个网站的Robots协议都在该网站的根目录下,例如百度的Robots协议的位置就是’https://www.baidu.com/robots.txt’ 或者京东的Robots协议就在’https://www.jd.com/robots.txt’
    下面给出一段京东的Robots的内容:

    User-agent: *
    Disallow: /?*
    Disallow: /pop/*.html
    Disallow: /pinpai/*.html?*
    User-agent: EtaoSpider
    Disallow: /
    User-agent: HuihuiSpider
    Disallow: /
    User-agent: GwdangSpider
    Disallow: /
    User-agent: WochachaSpider
    Disallow: /

    第一个的意思就是说对于所有的爬虫,不能爬取在/?开头的路径,也不能访问和/pop/*.html 匹配的路径。
    后面四个用户代理的爬虫不允许访问任何资源。

    所以Robots协议的基本语法如下:

    User-agent: 这里是爬虫的名字
    Disallow: /该爬虫不允许访问的内容
    ---------------------
    作者:Ars-Nova
    来源:CSDN
    原文:https://blog.csdn.net/qq_36346262/article/details/79344109
    版权声明:本文为博主原创文章,转载请附上博文链接!

  • 相关阅读:
    HDU 3401 Trade
    POJ 1151 Atlantis
    HDU 3415 Max Sum of MaxKsubsequence
    HDU 4234 Moving Points
    HDU 4258 Covered Walkway
    HDU 4391 Paint The Wall
    HDU 1199 Color the Ball
    HDU 4374 One hundred layer
    HDU 3507 Print Article
    GCC特性之__init修饰解析 kasalyn的专栏 博客频道 CSDN.NET
  • 原文地址:https://www.cnblogs.com/gabrielle/p/9882209.html
Copyright © 2011-2022 走看看