zoukankan      html  css  js  c++  java
  • 爬虫的盗亦有道Robots协议

    爬虫的规定

    Robots协议

    网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守

    Robots协议:在网页的根目录+robots.txt

    Robots协议的基本语法:

    #注释,*代表所有,/代表根目录
    User-agent:* #user-agent代表来源
    Allow:/ #代表运行爬取的内容
    Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容
    

    并不是所有网站都有Robots协议

    如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制

    类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途

    总的来说请准守Robots协议

  • 相关阅读:
    css3转换
    JavaScript函数
    JavaScript数组
    JavaScript流程控制
    JavaScript数据类型、运算
    css3响应布局
    css3渐变、背景、过渡、分页
    css3初识
    CSS3选择器
    H5拖拽、绘画、web存储
  • 原文地址:https://www.cnblogs.com/pythonywy/p/11114417.html
Copyright © 2011-2022 走看看