Google的爬虫家族[Spider]

zoukankan html css js c++ java

Google的爬虫家族[Spider]

原文：http://hi.baidu.com/shichunqi/blog/item/65a8881334d81f04c83d6d42.html

Google爬虫是连接互联网和你的查询需求之间的第一座桥梁。是新站长们所最喜闻乐见的东东之一。 “她的美并不艳丽，甚至很内敛，却能给人一种安定的感觉。”也许新站长们会用此来形容Google爬虫。

GoogleBot:

    是Google爬虫家族（简称G虫家族）知名度最大，几乎无处不在的一位。其实G虫家族不仅仅关系到草根搜索，其实和市场推广，广告投放也密切相关。下面是Family Tree（G家谱）：

GOOGLEBOT: USER-AGENT: GOOGLEBOT

有人认为GOOGLEBOT会分为FRESHBOT和DEEPBOT，有人认为FRESHBOT和DEEPBOT是GOOGLEBOT的补充。还有人认为GOOGLEBOT已经升级到超越了那个阶段，它可以在任何需要的时候，玩FRESHBOT和DEEPBOT的换脸。

FreshBot：

主要对已经进入索引的页面进行更新检查，会收集新的URL链接，页面更新时间信息。因此会根据你网站的变化情况，不定时访问，有时候会相当频繁。因此，它是Google低死链率的功臣。

DeepBot：

会对已经发现的链接抓取分析，同时分析所有页面的外链，以便下一次集中抓取。一般在Google Dance期间抓的极为卖力。为新一次大规模更新网页库，更新索引提供数据。

Google Dance：

是指Google一年10次或者每36天一次的大规模索引更新。可能会有索引算法更新，新作弊策略生效。更新也不是做0-1切换，会持续几天，分批做索引切换。在此之前， GoogleBot会深挖所有的站点，重新做站点评估。我们知道Google索引一直是增量变化的，近期Google进一步缩短更新周期，会以1周为时间域来部分更新索引。可以避免集中更新带来的波动。或许Google的目标是Google索引短周期地动态更新，做到对大部分查询用户透明的那种动态更新效果。

IMAGEBOT: USER-AGENT: GOOGLEBOT-IMAGE

图片抓取，并且根据图片数据一般大于网页数据，以及图片链接关注图片周边文字等信息，做了抓取的优化。

MEDIABOT： USER-AGENT: MEDIAPARTNERS-GOOGLE

抓取加入了Adsense联盟的网站的网页，来分析网页内容，以便决定投放何种合适的广告。据说MEDIABOT会将结果投递到Google Big Daddy数据服务，从而进入Google的索引结果。 Google首席工程师Matt Cutts （http://www.mattcutts.com/blog/）证实了MEDIABOT抓取结果会进入Google索引。因此SEO有人认为Adsense有利用提高Google排名。

Big Daddy：

         是Google自2005年12月开始，到2006三月完成的大规模算法，软件和数据基础架构升级。据说同时升级了站点评价机制，优化了根据出链和入链来评价的机制。强调可信出链和可信入链，并且根据站点的评价来预估索引量。对于超出预估索引量的站点进行减少索引的打压。并且， Matt Cutts在他的博客“Bigdaddy on the move” 中给出了两个数据中心IP地址：66.249.93.104和64.233.179.104。

Matt Cutts:

       Google高级工程师，质量控制组的一哥，负责Google的SPAM组，反SEO策略等。是SEO界的神。又因为在黄反组干过，当时这家伙会用老婆饼来换取告知色情查询结果，又被称为色情饼男（porn cookie guy），国内人称一休哥。因为会经常透露google的小秘密给SEO界，而备受追捧。

http://en.wikipedia.org/wiki/Matt_Cutts

ADSBOT: USER-AGENT: ADSBOT-GOOGLE

         是Goolge用来分析Adwords投放效果的工具，会对页面做个打分，然后分析投放Adwords的点展比CTR(Click_Throught_Rate) 和网页内容质量的关系。

GOOGLEBOT-MOBILE: USER-AGENT: GOOGLEBOT-MOBILE

         是Google抓取WAP站点的时候爬虫，主要是用来多个手机的User-Agent来应对一些对不同的手机做了优化的页面。

1.   三星(欧洲，美国市场)：SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)。 DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

2. IPhone（美国，欧洲市场）：Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1A543a Safari/419.3 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

3. 诺基亚（中国，印度市场）：Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

       4. DoCoMO（日本市场）: DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html) 等等

GSA-CRAWLER:

         是Google Search Application（http://www.google.com/enterprise/search/gsa.html）的爬虫标示。用于构建站点级和企业搜索服务的。一般格式是：gsa-crawler (Enterprise; GID01065; yourname@yourcompany.com)

FEEDFETCHER-GOOGLE：

         当你要把别人的博客放到Google Reader或者Google Homepage的时候，这时候的抓取工作就是由FEEDFETCHER完成的。

参考：http://www.telezent.com/telezent/Resources/FAMILY-OF-GOOGLE-CRAWLERS.pdf

查看全文

相关阅读:
MIT python 第二课第四十分钟取最小值的例子
 Python IDLE快捷键汇总
 5、Hibernate的延迟加载
 4、Hibernate三种状态的讲解
 3、Hibernate实现简单的CRUD操作
 1、hibernate的简单配置
 2、hibernate的 save 保存失败的解决方法
 JavaWeb开发中关于分页的实现
 常见的网页布局二
 常见的网页布局一

原文地址：https://www.cnblogs.com/w3live/p/1913446.html