爬虫的盗亦有道Robots协议 - 走看看

zoukankan html css js c++ java

爬虫的盗亦有道Robots协议
爬虫的规定

Robots协议

网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守

Robots协议:在网页的根目录+robots.txt

Robots协议的基本语法:
```
#注释,*代表所有,/代表根目录
User-agent:* #user-agent代表来源
Allow:/ #代表运行爬取的内容
Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容
```
并不是所有网站都有Robots协议

如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制

类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途

总的来说请准守Robots协议
查看全文

相关阅读:
听闻 kubernetes，快速了解一番
 处理器趣事 CPU/GPU/TPU/DPU/BPU
记录
 硬盘
 图总结 AI
C# 加密、解密PDF文档（基于Spire.Cloud.SDK for .NET）
Spire.Cloud 私有化部署教程（二）- Ubuntu 18.04 系统
 Spire.Cloud 私有化部署教程（一）
C# 将PDF转为Word、Html、XPS、SVG、PCL、PS——基于Spire.Cloud.SDK for .NET
C# 设置、删除、读取Word文档背景——基于Spire.Cloud.Word

原文地址：https://www.cnblogs.com/pythonywy/p/11114417.html

Copyright © 2011-2022 走看看