zoukankan      html  css  js  c++  java
  • [日常]UserAgent中的AhrefsBot解释

    在观察网站的访问者ua信息的时候

    看到有很多AhrefsBot 

    Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

    官方网站的介绍总结就是一个对于我们国内用户无用的蜘蛛

    什么是AhrefsBot?

    AhrefsBot 是一个 Web 爬虫,为 Ahrefs 在线营销工具集的 12 万亿链接数据库提供支持。它不断抓取网络以使用新链接填充我们的数据库并检查以前找到的数据的状态,以便为我们的用户提供最全面和最新的数据。

    来自网络的 Ahrefs Bot 收集的链接数据被全球数千名数字营销人员用于规划,执行和监控他们的在线营销活动。 这些数据对 SEO 社区具有巨大价值,因为它可以帮助营销专业人员更好地理解世界上最大的搜索引擎的基本算法,以便他们可以相应地优化网站。我们的爬虫每隔 24 小时访问超过 60 亿个网页,并每 15-30 分钟更新一次 Ahrefs 的索引。 根据最近一项关于“好机器人”的第三方研究,AhrefsBot 是仅次于 Googlebot 的第二大活跃爬虫。

    AhrefsBot 在您的网站上做什么?

    AhrefsBot 正在抓取您的网站,记录出站链接并将其添加到我们的数据库中。它会定期重新抓取您的网站以检查以前找到的链接的当前状态。

    我们的抓取工具不会收集或存储有关您网站的任何其他信息。它不会在您的网站上触发广告(如果有),也不会为您的 Google Analytics(分析)流量增加数字。

    它是否尊重 robots.txt 文件?

    是的。绝对地。

    我们严格尊重 robots.txt,禁止和允许规则。

    如何控制您网站上的 AhrefsBot?

    如上所述,AhrefsBot 严格遵循您网站上的 robots.txt 文件。因此,您可以根据需要在您的网站上完全控制它。

    要更改 AhrefsBot 访问您网站的频率,您可以在您的 robots.txt 文件中指定来自我们的机器人的两个连续请求之间的最小可接受延迟:

    User-agent: AhrefsBot

    Crawl-Delay: [value]

    其中 Crawl-Delay 值是以秒为单位的时间。

    如果出于某种原因您想阻止 AhrefsBot 访问您的站点,请将以下两行放入您服务器上的 robots.txt 文件中:

    User-agent: AhrefsBot

    Disallow: /

    请注意,AhrefsBot 可能需要一些时间来选择您的 robots.txt 文件中的更改。这将在每次下一次预定爬网之前进行。

    开源作品

    GO-FLY,一套可私有化部署的免费开源客服系统,安装过程不超过五分钟(超过你打我 !),基于Golang开发,二进制文件可直接使用无需搭开发环境,下载zip解压即可,仅依赖MySQL数据库,是一个开箱即用的网页在线客服系统,致力于帮助广大开发者/中小站长快速整合私有客服功能
    github地址:go-fly
    官网地址:https://gofly.sopans.com
  • 相关阅读:
    【UOJ 53】线段树区间修改
    【洛谷 1057】传球游戏
    【洛谷 2430】严酷的训练
    【UOJ 51】最接近神的人
    【洛谷 1908】逆序对
    【UOJ 50】树状数组2
    Kafka单机安装
    Linux查看磁盘使用情况命令
    CentOS7查看和关闭防火墙
    Kafka学习(三)——Java工具类、Springboot集成批量消费、SparkStreaming集成
  • 原文地址:https://www.cnblogs.com/taoshihan/p/15366868.html
Copyright © 2011-2022 走看看