zoukankan      html  css  js  c++  java
  • seo蜘蛛

    光年蜘蛛日志分析工具

    这款日志分析工具已经好多年了,从刚开始接触seo的时候都说过它,也算是一种粗略的日志分析工具吧,实用效果不是很好,但是可以简单的看出一个网站的大概情况,具体的还是需要自己仔细的去区分!

    水淼蜘蛛日志分析工具

    这个水淼日志工具对于光年日志分析工具,统计的数据更全面一些,数据都是成表报型的,使用起来更直观一些,这个工具可以直接在百度上搜索下载就好了,可以看到这个里面的功能,可以导出我们想要的数据然后逐一的对蜘蛛去分析,然后就能掌握网站的最新一些动向,方便我们调整优化策略!

    比如我们常听说的有渲染蜘蛛、沙盒蜘蛛等等,来针对网页不同情况派出不同类型的蜘蛛去造访,这边也收集了一些关于蜘蛛ip来划分的类型,大家可以自行对照看一看自己网站的蜘蛛类型占比多少!

    123蜘蛛类型区分:

    123.125.71.106抓取内页收录,权重较低,爬取完内页不会很快放出

    123.125.71.95抓取内页收录,权重较低,爬取完内页不会很快放出

    123.125.71.97 抓取内页收录,权重较低,爬取完内页不会很快放出

    123.125.71.117抓取内页收录,权重较低,爬取完内页不会很快放出

    220蜘蛛类型区分:

    220.181.108.95 百度抓取首页的专用ip,如果是220.181.108ip段来访,你网站会天天隔夜快照!

    220.181.108.92 98%抓取首页或者其他页面 此ip段爬取过的内容基本24小时内放出

    220.181.108.75 90%抓取内页、8%抓取首页 2%其他 此ip段爬取过的内容基本24小时内放出

    220.181.108.91 综合,主要抓取首页或者内页,此ip段爬取过的内容基本24小时内放出

    220.181.108.*ip段,主要抓取首页占比80%,内页占比30%,被此ip爬过后,一般都会24小时后放出,成功抓取返回是200 返回码304代表未更新,2000、64主要是网站是动态导致返回码是这样的!

    220.181.108.89

    220.181.108.94

    220.181.108.97

    220.181.108.80

    220.181.108.77

    220.181.108.86

    220.181.108.83

    代表抓取首页ip段,返回码304代表未更新

    其他ip代表:

    220.181.7.* 123.125.65.*代表百度指数ip造访,准备抓取页面

    121.14.89.*代表新站度过考察期

    123.125.68 经常来表示要进沙盒

    220.181.68.*只增不减代表网站可能进去沙盒或者将要k站

    203.208.60.*一般会出现新站比较多,不稳定

    210.72.225 用户百度蜘蛛巡逻个站点

    125.90.88*广东茂名市电信也属于百度蜘蛛ip,一般出现在新站较多

    对于网站新产出的链接必定是123开头的蜘蛛到访后,如果内容质量还不错的情况下,会有220蜘蛛再来进行抓取,好的会当天就会放出,建立索引,对于这一点排上来优化公司已经试验过很多次了,可以看到我们网站上的内容都是当天抓取当天放出的!

    好了关于网站蜘蛛分析就介绍到这里了,希望我的分享可以对于你有帮助!

  • 相关阅读:
    jQuery中$(function(){})与(function($){})(jQuery)、$(document).ready(function(){})等的区别详细讲解
    jQuery的三种$()方式
    基于DDD的.NET开发框架
    你得学会并且学得会的Socket编程基础知识
    C#委托及事件
    C#学习笔记:泛型委托Action<T>和Fun<TResult>
    JS 变量或参数是否有值的判断
    [转]剖析ASP.Net MVC Application
    python爬虫beautifulsoup4系列2【转载】
    python爬虫beautifulsoup4系列1【转载】
  • 原文地址:https://www.cnblogs.com/l1pe1/p/14648189.html
Copyright © 2011-2022 走看看