zoukankan      html  css  js  c++  java
  • 怎么设置不让搜索引擎收录某些页面

    一、关于robots文件

        1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。

        2. 只有在需要禁止抓取某些内容时,robots.txt才有意义,如果该文件为空,就意味着允许搜索引擎抓取所有内容。

        3. 语法解释:

             最简单的robots文件:禁止搜所有搜索引擎抓取任何内容,写法为:

             User-agent:*             

             Disallow:/

            其中,User-agent用于指定规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。如只适用于百度蜘蛛,则写为:User-agent:Baiduspider。谷歌蜘蛛:Googlebot.

                       Disallow告诉蜘蛛不要抓取某些文件。如 Disallow:/post/index.html,告诉蜘蛛禁止抓取Post文件夹下index.html文件。 Disallow后什么都不写,代表允许抓取一切页面。

    二、关于meta robots标签

         1. 用于指令搜索引擎禁止索引本页内容。

         2. 语法解释:<meta name="robots" content="noindex,nofollow"> 意思是 禁止所有搜索引擎索引本页面,禁止跟踪本页面上的链接。

            noindex:告诉蜘蛛不要索引本页面。

            nofollow:告诉蜘蛛不要跟踪本页面上的链接。

            nosnippet:告诉蜘蛛怒要在搜索结果中显示说明文字。

            noarchive:告诉搜索引擎不要显示快照。

            noodp:告诉搜索引擎不要使用开放目录中的标题和说明。

  • 相关阅读:
    一种神奇的双向循环链表C语言实现
    ucore_lab0
    使用展开操符作替代 .apply() (prefer-spread)
    使用剩余参数代替 arguments (prefer-rest-params)
    LeetCode 11. Container With Most Water 单调队列
    Codecademy网站安利 及 javaScript学习
    谈项目团队分工角色和改进
    谈大型项目开发的多个环境配合
    以api文档为中心--前后端分开发离新思维
    中国进出口商品交易会开发总结
  • 原文地址:https://www.cnblogs.com/candyzhmm/p/4713597.html
Copyright © 2011-2022 走看看