zoukankan      html  css  js  c++  java
  • 如何设置让网站禁止被爬虫收录?robots.txt

    robot.txt只是爬虫禁抓协议,user-agent表示禁止哪个爬虫,disallow告诉爬出那个禁止抓取的目录。
    如果爬虫够友好的话,会遵守网站的robot.txt内容。

    一个内部业务系统,不想被爬虫收录。
    请问该如何做
    linzhou0207 | 浏览 9607 次 问题未开放回答 |举报
    发布于2016-07-05 19:47 最佳答案
    网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

    比如,要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
    以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

    1、通过 robots.txt 文件屏蔽
    可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
    User-agent: Baiduspider
    Disallow: /
    User-agent: Googlebot
    Disallow: /
    User-agent: Googlebot-Mobile
    Disallow: /
    User-agent: Googlebot-Image
    Disallow:/
    User-agent: Mediapartners-Google
    Disallow: /
    User-agent: Adsbot-Google
    Disallow: /
    User-agent:Feedfetcher-Google
    Disallow: /
    User-agent: Yahoo! Slurp
    Disallow: /
    User-agent: Yahoo! Slurp China
    Disallow: /
    User-agent: Yahoo!-AdCrawler
    Disallow: /
    User-agent: YoudaoBot
    Disallow: /
    User-agent: Sosospider
    Disallow: /
    User-agent: Sogou spider
    Disallow: /
    User-agent: Sogou web spider
    Disallow: /
    User-agent: MSNBot
    Disallow: /
    User-agent: ia_archiver
    Disallow: /
    User-agent: Tomato Bot
    Disallow: /
    User-agent: *
    Disallow: /
    2、通过 meta tag 屏蔽
    在所有的网页头部文件添加,添加如下语句:

    3、通过服务器(如:Linux/nginx )配置文件设置
    直接过滤 spider/robots 的IP 段。
    小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。


  • 相关阅读:
    机器学习中的距离度量
    ubuntu 安装JDK
    pandas 代码
    pandas 常用统计方法
    python内置函数map/reduce/filter
    详解SQL Server连接(内连接、外连接、交叉连接)
    什么是SAD,SAE,SATD,SSD,SSE,MAD,MAE,MSD,MSE?
    数据挖掘算法源代码:很好的参考资料
    python linecache模块读取文件用法详解
    python读取文件指定行
  • 原文地址:https://www.cnblogs.com/lxwphp/p/15454981.html
Copyright © 2011-2022 走看看