zoukankan      html  css  js  c++  java
  • robots文件简介

    定向推广在给客户提供谷歌优化服务时,曾经碰到过这样的问题,网站优化的基础工作都做好了,但搜索引擎就是不肯搜索。一开始还真是不了解问题到底出在哪里了,后来仔细一想,该不会是有人动了robots文件吧。一查果然如此,果然是因为robots文件没有设置好,导致搜索引擎无法收录。别小看robots只是短短几百字节,但它却非常重要,如果设置不好,将严重影响网站的收录情况。比如该收录的不收录,不该收录的全都收录过了。还有比这更糟糕的情况吗?所以今天,让我们一起来学一学robots的基础知识吧。
    
    robots.txt的概念
    robots.txt是一个纯文本文件,必须放置在一个站点的根目录下,而且文件名必须全部小写.在robots.txt文件中可以声明该网站中不想被robots访问的部分,或者限定搜索范围,让搜索引擎只收录指定的内容。
    
    robots.txt的作用
    当一个搜索机器人访问一个网站时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
    
    robots.txt的基本用法
    1.允许所有的robot访问
    User-agent: *
    Disallow:
    (或者也可以建一个空文件 “robots.txt” 文件,放在网站的根目录下面,表示允许所有的搜索引擎搜索所有的文件)
    
    2.禁止所有搜索引擎访问网站的任何部分
    User-agent: *
    Disallow: /
    (注意:允许全部收录和全部不允许收录的语法相差只在一个符号/上面,所以在给网站书写robots的时候要特别小心)
    
    3.禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
    User-agent: *
    Disallow: /01/
    Disallow: /02/
    Disallow: /03/
    
    4.禁止某个搜索引擎的访问(下例中的BadBot)
    User-agent: BadBot
    Disallow: /
    
    5.只允许某个搜索引擎的访问(下例中的Crawler)
    User-agent: Crawler
    Disallow:
    
    User-agent: *
    Disallow: /
    
    
    robots.txt的具体实例
    1.如果下面的这两个链接的内容差不多,那么根据利于优化的原则,第一个链接我们可以屏蔽掉!
    
    /XXX?123  /123.html
    如果像第一个的链接这样的链接非常多的话,其实只要屏蔽/XXX?就可以屏蔽所有的链接了。      
    具体代码如下:Disallow: /XXX?
    
    2.用robots.txt屏蔽多余的链接,一般保留静态的链接(HTML、htm、shtml等)
    由于网站中经常会出现多个链接指向同一个页面的情况,而这样会让搜索引擎对网站的友好度降低。为了避免这一个情况,我们就可以通过robots.txt把非主要的链接去掉。
    比如以下两个链接指向同样的页面:  /OOO?123  /123.html
    那么根据利于优化的原则,第一个链接我们可以屏蔽掉.
    代码如下:  Disallow: /OOO?123
    3.用robots.txt屏蔽死链
    死链就是曾经存在的网页,因为改版或其他原因而失去效用后就变成死链,也就是说看似一个正常的网页链接,但点击后不能打开相对应的网页页面。
    比如,原来在目录为/kakaseo下的所有链接,因为目录地址的改变,现在都变成死链接了,那么我们可以用robots.txt把它屏蔽掉。
    代码如下:Disallow: /kakaseo/
    4.告诉搜索引擎你的sitemap.xml地址
    利用robots.txt可以告诉搜索引擎你sitemap.xml文件的地址,而不需要在网站上添加sitemap.xml的链接。
    以上说明了robots.txt的概念、基本写法,具体实例,希望你的网站可以有一个好的robots.txt,因为robots.txt是搜索引擎了解你网站的一个非常重要的途径。
    

      

  • 相关阅读:
    利用sklearn训练LDA主题模型及调参详解
    关联规则挖掘:Apriori算法(基于Groceries数据集)
    极大连通子图与极小连通子图
    TCP协议“三次握手”与“四次挥手”详解(下)
    TCP协议“三次握手”与“四次挥手”详解(上)
    95题--不同的二叉搜索树II(java、中等难度)
    96题--不同的二叉搜索树(java、中等难度)
    CRC循环冗余校验---模2除法解析
    黑盒测试用例设计方法总结
    软件配置管理和软件维护的区别【详细】
  • 原文地址:https://www.cnblogs.com/xyzhuzhou/p/2758568.html
Copyright © 2011-2022 走看看