zoukankan      html  css  js  c++  java
  • 百度蜘蛛IP段分析

    大家进行网站日志分析的时候,常见到很多不同IP段的百度蜘蛛,为了方便大家更好的进行日志分析,下面列举了百度不同IP段常见蜘蛛的一些详情情况,及所谓的降权蜘蛛,沙盒蜘蛛,高权重蜘蛛等等

    下面的百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
    60.172.229.61
    61.129.45.72
    61.135.162.*


    百度竞价蜘蛛
    61.135.165.134
    117.34.74.66
    118.122.188.194
    119.63.196.9
    125.39.78.185



    (百度联盟爬虫),说白了就是百度统计。
    61.135.186.*



    站长工具模仿的百度蜘蛛。
    61.147.98.146
    61.188.39.16
    113.98.254.245
    117.21.220.245
    117.28.255.42


    114站长工具箱(这个是你的网站不稳定时常来的)
    119.147.114.213
    121.10.141.*


    百度图片爬虫
    123.15.**.**



    这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
    123.125.68.*


    抓取内页收录的,权重较低,爬过此段的内页文章暂时被收录但不放出来(意思也就是说待定),因不是原创或采集文章。(百度网页爬虫(百度图片爬虫)
    123.125.71.*


    搜外站长工具蜘蛛。
    124.248.34.52


    也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的,没有多大用。
    125.90.88.*


    百度蜘蛛
    159.226.50.*
    180.76.5.*
    180.76.5.87
    220.181.158.107



    伪装百度蜘蛛IP
    180.149.130.* 


    这个ip段出现在新站及站点有不正常现象后。
    183.91.40.144
    203.208.60.*


    这个ip段不间断巡逻各站,就是路过一下。
    210.72.225.*


    每天这个IP 段只增不减很有可能进沙盒或K站
    218.30.118.102
    220.181.68.*
    123.125.68.*
    220.181.68.* 

    主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的!一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。
    220.181.108.*


    代表百度蜘蛛IP来访准备抓取你东西
    220.181.7.*
    123.125.66.*



    这个ip段作为度过新站考察期
    121.14.89.*



    这个ip段出现在新站或站点有不正常现象后
    203.208..60.*



    这个ip段不间断巡逻各站
    210.72.225.*


    这个是百度抓取首页的专用IP如是220.181.108段的ip来的话基本来说网站会天天隔夜快照,绝对错不了的
    220.181.108.95



    98%抓取首页可能还会抓取其他「不是指内页)属于权重IP段此段爬过的文章或首页基本24小时放出来.
    220.181.108.92


    抓取内页收录的 权重较低 爬过此段的内页文章不会很快放出来,因不是原创或采集文章
    123.125.71.106


    属于综合的。主要抓取首页和内页或者其它页面。属于权重IP段, 抓过的文章或首页基本24小时放出来
    220.181.108.91


    重点抓取更新文章的内页达到90%,8%的抓取首页,2%其他权重ip段,抓过的文章或首页基本24小时放出来
    220.181.108.75


    专用抓取首页ip 权重段,一般返回代码304 0 0代表未更新
    220.181.108.86


    抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创
    123.125.71.95
    123.125.71.97


    专用抓取首页ip 权重段,一般返回代码304 0 0代表未更新
    220.181.108.89
    220.181.108.94
    220.181.108.97
    220.181.108.80
    220.181.108.77


    抓取内页收录的, 权重较低,爬过此段的内页文章不会很快放出来,因不是原创
    123.181.108.77


    专用抓取首页ip 权重段,一般返回代码304 0 0代表未更新

    220.181.108.83

                                 本文由 whchina(江城老温)原创发布,转载请注明出处,江城老温 as a thinker。877313758

     点击了解最新的VR虚拟现实资讯
     
  • 相关阅读:
    刚听完CSDN总裁蒋涛先生的学术报告
    WinForm下屏幕截图程序的实现
    .NET4.5 Async 与 Async Targeting Pack区别
    WP8中的Tiles
    WP8中调用APP的方式
    安装Win8后必做的优化
    如何将项目从WP7升级到WP8
    ActiveWriter集成到VS.NET的NHibernate(ActiveRecord)对象可视化设计工具
    概述CSLA.NET 3.6 (Overview of CSLA .NET 3.6 for Windows and Silverlight)
    SQL Server BI Step by Step 1 准备
  • 原文地址:https://www.cnblogs.com/guozhe/p/5760740.html
Copyright © 2011-2022 走看看