zoukankan      html  css  js  c++  java
  • Google的爬虫家族[Spider]

    原文:http://hi.baidu.com/shichunqi/blog/item/65a8881334d81f04c83d6d42.html

    Google爬虫是连接互联网和你的查询需求之间的第一座桥梁。 是新站长们所最喜闻乐见的东东之一。 “她的美并不艳丽,甚至很内敛,却能给人一种安定的感觉。”也许新站长们会用此来形容Google爬虫。

    GoogleBot:

        是Google爬虫家族(简称G虫家族)知名度最大, 几乎无处不在的一位。 其实G虫家族不仅仅关系到草根搜索, 其实和市场推广,广告投放也密切相关。 下面是Family Tree(G家谱):

    GOOGLEBOT: USER-AGENT: GOOGLEBOT

    有人认为GOOGLEBOT会分为FRESHBOT和DEEPBOT, 有人认为FRESHBOT和DEEPBOT是GOOGLEBOT的补充。 还有人认为GOOGLEBOT已经升级到超越了那个阶段, 它可以在任何需要的时候,玩FRESHBOT和DEEPBOT的换脸。

    FreshBot:

    主要对已经进入索引的页面进行更新检查, 会收集新的URL链接, 页面更新 时间信息。 因此会根据你网站的变化情况, 不定时访问, 有时 候会相当频繁。 因此, 它是Google低死链率的功臣。

    DeepBot:  

    会对已经发现的链接抓取分析,同时分析所有页面的外链, 以便下一次集中抓取。  一般在Google Dance期间抓的极为卖力。 为新一次大规模更新网页库,更新索引提供数据。

    Google Dance:

    是指Google一年10次或者每36天一次的大规模索引更新。 可能会有索引算法更新, 新作弊策略生效。 更新也不是做0-1切换, 会持续几 天,分批做索引切换。 在此之前, GoogleBot会深挖所有的站点, 重新做站点评估。  我们知道Google索引一直是增量变化的, 近期Google进一步缩短更新周期, 会以1周为时间域来部分更新索引。 可以避免集中更新带来的波动。 或许Google的目标是Google索引短周期地动态更新, 做到对大部分查询用户透明的那种动态更新效果。

     IMAGEBOT:  USER-AGENT: GOOGLEBOT-IMAGE

    图片抓取,并且根据图片数据一般大于网页数据,以及图片链接关注图片周边文字等信息, 做了抓取的优化。

     MEDIABOT: USER-AGENT: MEDIAPARTNERS-GOOGLE

    抓取加入了Adsense联盟的网站的网页, 来分析网页内容,以便决定投放何种合适的广告。 据说MEDIABOT会将结果投递到Google Big Daddy数据服 务, 从而进入Google的索引结果。 Google首席工程师Matt Cutts (http://www.mattcutts.com/blog/)证实了MEDIABOT抓取结果会进入Google索引。 因此SEO有人认为Adsense有利用提高Google排名。

    Big Daddy:

             是Google自2005年12月开始, 到2006三月完成的大规模算法, 软件和数据基础架构升级。 据说同时升级了站点评价机制, 优化了根据出链和入链来评价的机制。 强调可信出链和可信入链, 并且根据站点的评价来预估索引量。 对于超出预估索引量的站点 进行减少索引的打压。 并且, Matt Cutts在他的博客“Bigdaddy on the move” 中给出了两个数据中心IP地址:66.249.93.104和64.233.179.104。

    Matt Cutts:

           Google高级工程师,质量控制组的一哥, 负责Google的SPAM组,反SEO策略等。 是SEO界的神。  又因为在黄反组干过, 当时这家伙会用老婆饼来换取告知色情查询结果, 又被称为色情饼男(porn cookie guy), 国内人称一休哥。因为会经常透露google的小秘密给SEO界, 而备受追捧。  

    http://en.wikipedia.org/wiki/Matt_Cutts

    ADSBOT:  USER-AGENT: ADSBOT-GOOGLE

             是Goolge用来分析Adwords投放效果的工具, 会 对页面做个打分, 然后分析投放Adwords的点展比CTR(Click_Throught_Rate) 和网页内容质量的关系。

     GOOGLEBOT-MOBILE: USER-AGENT: GOOGLEBOT-MOBILE

             是Google抓取WAP站点的时候爬虫, 主要是用来多个手机的User-Agent来应对一些对不同的手机做了优化的页面。

    1.   三星(欧洲,美国市场):SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)。 DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

    2. IPhone(美国,欧洲市场):Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1A543a Safari/419.3 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

    3. 诺基亚(中国,印度市场):Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

           4. DoCoMO(日本市场): DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)  等等

     GSA-CRAWLER:

             是Google Search Application(http://www.google.com/enterprise/search/gsa.html)的爬虫标示。 用 于构建站点级和企业搜索服务的。 一般格式是:gsa-crawler (Enterprise; GID01065; yourname@yourcompany.com)

     FEEDFETCHER-GOOGLE:

             当你要把别人的博客放到Google Reader或者Google Homepage的时候, 这时候的抓取工作就是由FEEDFETCHER完成的。

    参考:http://www.telezent.com/telezent/Resources/FAMILY-OF-GOOGLE-CRAWLERS.pdf

  • 相关阅读:
    CentOS8下升级Python3.6到3.9
    web service基础知识
    mysql+centos7+主从复制
    saltstack高效运维
    Docker
    python如何配置virtualenv
    Python操作 RabbitMQ、Redis、Memcache、SQLAlchemy
    nginx+uWSGI+django+virtualenv+supervisor发布web服务器
    RabbitMQ消息队列-Centos7下安装RabbitMQ3.6.1
    flask-wtforms
  • 原文地址:https://www.cnblogs.com/w3live/p/1913446.html
Copyright © 2011-2022 走看看