zoukankan      html  css  js  c++  java
  • SEO之robots.txt

    【关键词:robot.txt,sitemap,User-Agent,Disallow,Allow】
    [声明:摘自Wikipedia]
     
    1. 定义:robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。有些搜索引擎会遵守这一规范,而其他则不然。通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。
    2.要求:
       0.robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
       1.robots.txt的文件名应统一为小写。
        (因:一些系统中的URL是大小写敏感的) 
       2.robots.txt应放置于网站的根目录下。
       3.如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么:
        可以将自定的设置合并到根目录下的robots.txt;
        或者使用robots元数据(Metadata,又称元数据)。
       4.目录末尾有与没有斜杠“/”表示的是不同的URL
        (因:robots.txt是用字符串比较来确定是否获取URL)
       5.robots.txt允许使用类似"Disallow: *.gif"这样的通配符
       6.其他的影响搜索引擎的行为的方法包括使用robots元数据
    <meta name="robots" content="noindex,nofollow" /> 
    3.示例:
       1.允许所有机器人:
         User-agent: *
    Disallow:
    -----or↓-----
    User-agent: *
    Allow:/  
       2.仅允许特定的机器人:(name_spider用真实名字代替)
        User-agent: name_spider 
    Allow: 
       3.拦截所有的机器人:
        User-agent: * 
    Disallow: /
    4.禁止所有机器人访问特定目录:
        User-agent: *
        Disallow: /
        cgi-bin/
        Disallow: /images/
        Disallow: /tmp/
        Disallow: /private/

       5.仅禁止坏爬虫访问特定目录(BadBot用真实的名字代替):

        User-agent: BadBot
        Disallow: /private/

       6.禁止所有机器人访问特定文件类型:

        User-agent: *
        Disallow: /*.php$
        Disallow: /*.js$
        Disallow: /*.inc$
    Disallow: /*.css$
    ////////////////////////
    Sitemap:
        Sitemap
    指令被几大搜索引擎支持(包括Google、Yahoo、Bing和Ask),指定了网站Sitemaps文件的位置。Sitemaps文件包含了网站页面所在的URL的一个列表。Sitemap指令并不受User-agent指令的限制,所以它可以放在robots.txt文件中的任意位置。唯一要注意的就是要使用网站地图指令,<sitemap_location>,并将URL的"location"值换成网站地图的地址。[编写方法参考:https://www.sitemaps.org/index.html]  
       Sitemap: <http://www.example.com/sitemap.xml>;
    ///////////////////////

    Crawl-delay指令

    几大抓取工具支持Crawl-delay参数,设置为多少秒,以等待同服务器之间连续请求:

    User-agent: * 
    Crawl-delay: 10
    //////////////////////

    Allow指令

    一些大的Crawlers支持一项Allow指令,可以抵消先前Disallow指令。比如Googlebot
    //////////////////////

    虽然robots.txt是最为广泛接受的方法,但也可以与robots META标签一起使用。robots META标签主要是针对一个独立的页面设置,与其他的META标签(如使用的语言、页面的描述、关键词等)一样,robots META标签也是放在页面的HEAD标签中,专门用来告诉搜索引擎robots如何抓取该页的内容。注

    <head> <meta name="robots" content="noindex,nofollow" /></head>
    /////////////////////
    常见robot:
      Googlebot 
       
    /////////////////////
    参考文献:
    1.  使用robots.txt文件阻止或删除网页 (HTML). Google网站站长工具帮助. [2012-10-16].
    2. 2.02.1完全指南:如何写好WordPress博客的robots.txt文件 (HTML). The Observing Mind. [2013-02-14].
    3. Jerri L.Ledord著马煜译. 搜索引擎优化宝典. : 257.
    4. How can I reduce the number of requests you make on my web site? (HTML). Yahoo! Slurp. [2007-02-08].
    5. MSNBot is crawling a site too frequently (HTML). Troubleshoot issues with MSNBot and site crawling. [2007-02-08].
    6. 如何拦截Googlebot(谷歌网站站长工具帮助)(简体中文)
  • 相关阅读:
    Largest Rectangle in Histogram
    Valid Sudoku
    Set Matrix Zeroes
    Unique Paths
    Binary Tree Level Order Traversal II
    Binary Tree Level Order Traversal
    Path Sum II
    Path Sum
    Validate Binary Search Tree
    新手程序员 e
  • 原文地址:https://www.cnblogs.com/johnnyzen/p/7155178.html
Copyright © 2011-2022 走看看