zoukankan      html  css  js  c++  java
  • 利用html标签限制搜索引擎对网站的抓取收录

    有时有这样的需求,在网页未制作完成,或涉及隐私不能公布,而这时又不能阻止搜索引擎来抓取网页!

    第一种方法:限制网页快照

    限制所有的搜索引擎建立网页快照: <meta name="robots" content="noarchive">

    限制百度的搜索引擎建立网页快照: <meta name="Baiduspider" content="noarchive">

    第二种方法:禁止搜索引擎抓取本页面和搜索引擎引用页面

    <meta name="robots" conrent="noindex,follow">

    在这里,META NAME="ROBOTS" 是泛指所有的搜索引擎的,在这里我们也可以特指某个搜索引擎。

    例如:META NAME="Googlebot"、META NAME="Baiduspide" 等。

    content部分有四个命令:index、noindex、follow、nofollow,命令间以英文的“,”分隔。

    INDEX命令:告诉搜索引擎抓取这个页面

    FOLLOW命令:告诉搜索引擎可以从这个页面上找到链接,然后继续访问抓取下去。

    NOINDEX命令:告诉搜索引擎不允许抓取这个页面

    NOFOLLOW命令:告诉搜索引擎不允许从此页找到链接、拒绝其继续访问。

    根据以上的命令,就有了以下的四种组合:

    <META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">:可以抓取本页,而且可以顺着本页继续索引别的链接;

    <META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">:不许抓取本页,但是可以顺着本页抓取索引别的链接;

    <META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">:可以抓取本页,但是不许顺着本页抓取索引别的链接;

    <META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">:不许抓取本页,也不许顺着本页抓取索引别的链接。

    通过robots.txt

    所谓的robots.txt文件,是每一个搜索引擎到你的网站之后要寻找和访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过这个文件,搜索引擎就可以知道在你的网站中,哪些文件是可以被索引的,哪些文件是被拒绝索引的。

  • 相关阅读:
    选择排序
    插入排序
    冒泡排序
    linux 常用命令全集
    Boost简介
    postgresql命令行
    Ncurses 命令行图形库
    rsync ssh文件同步
    BusyBox参考
    screen命令
  • 原文地址:https://www.cnblogs.com/wzzl/p/4970991.html
Copyright © 2011-2022 走看看