zoukankan      html  css  js  c++  java
  • 之前对 Alexa 的研究整理

    一、           Alexa简介

    1、  定义:

    Alexa创建于1996年4月,他们的目的是让 Internet冲浪者在分享虚拟世界资源的同时,更多的参与Internet资源地组织。2002年5月Alexa放弃了自己的搜索引擎与Google 合作。他们每天在网上搜集超过1,000GB的信息,然后进行整合发布。现在他们搜集的URL数量已经超过了Google。此排名的依据是用户链接数(Users Reach)和页面浏览数(Page Views)三个月累积的几何平均值。1999年,Alexa被美国电子商务旗舰企业“亚马逊”收购,成为后者的全资子公司。

    2、  分类:

    a)        综合排名 也可以叫做绝对排名。即特定的一个网站在所有350多亿网站中的名次。Alexa每三个月公布一次新的网站综合排名。此排名的依据是用户链接数(Users Reach)和页面浏览数(Page Views)三个月累积的几何平均值。

    b)        分类排名  是按主题分类,比如新闻、娱乐、购物等,Alexa给出某个特定网站在同一类网站中的名次。Alexa将其收集到的网站共分了16个大类,每个类下又分为多个主题。二是按语言分类,比如英文网站、中文网站、法文网站、德文网站等,给出特定站点在所有此类语言网站中的名次。Alexa提供了21种不同语言网站的分类排名。其中中文网站还细分成:简体中文和繁体中文两种。

    二、            Alexa 排名机制:

    1、  Alexa的网站排名是按照每个特定网站的被访问量进行排名的。访问量越大,排名越靠前。

    2、  访问量是针对定义在域上的网站进行统计的。如:www.sina.com.cn、news.sina.com.cn 和tech. sina.com.cn将被视作同一网站进行计数,因为它们同属于sina.com.cn这个域。

    3、  提供同样内容的网站将被视为同一网站计算。

    4、  纳入统计的访问量仅来自使用Alexa工具栏(Alexa Toolbar)的用户。也就是说,只有用户下载了Alexa工具栏,并将其嵌入自己的浏览器。这样,该用户访问某个网站的话,访问的记录才能算作被访问网站的访问量。

    5、  Alexa工具栏仅在windows操作系统下。

    6、  遇到有安全保护或加密的站点(如使用https协议),Alexa工具栏将自动关闭,因此那些安全系数高的网站,Alexa将不能对其进行搜索和统计排名。

    三、            Alexa 算法:

    1、  某个特定网站被排名时,依据的访问量数据是基于该网站3个月访问量记录的累积。也就是说Alexa每三个月发布一次排名结果,即通常说的名次。它的计算主要取决于用户链接数(Users Reach)和页面浏览数(Page Views)。Alexa系统每天对每个网站的用户链接数和页面浏览数进行统计,通过这两个量的三个月累积值的几何平均得出当前名次。变动是指与前三个月的比较。

    2、  用户链接数(Users Reach) 指通过Internet访问某个特定网站的人数。用访问某个特定网站的人数占所有Internet用户数的比例来表示。即:用户链接数 = (访问人数/全部Alexa用户数)* 100%,Alexa以每百万人作为计数单位。

    3、  页面浏览数(Page Views) 是指用户访问了某个特定网站的多少个页面。是所有访问该网站的用户浏览的页面数之和。每个用户浏览的页面数取平均值,是所有访问该网站的用户每天每人浏览的独立页面数的平均。同一人、同一天、对同一页面的多次浏览只记一次。

    四、            被Alexa禁止的作弊方法:

    1、  网页恶意代码: 包括自动修改浏览用户的IE(包括默认首页,默认搜索设置等)等。

    2、  疯狂弹出页面外加自动刷新 如果电脑中了某些网站上的毒,只要打开浏览器,就会弹出四五个它的广告页面,然后一部分自动刷新,然后自动关闭。当你点击进入它内页的时候,同样会弹出四五个页面,其中几个快速刷新,然后自动关闭。

    3、  利用QQ病毒来短时间内快速宣传网站。

    4、  利用各种形式包含的Iframe将不被统计。

    5、  通过破解工具条,发回仿造数据的,将被严格禁止。

    6、  Alexa的计算是同一个机器当天内访问同一个网站的同一个页面只能有效计算一次。注意不是同一个IP,Alexa根据机器码在安装时候生成Alexa用户识别码。

    五、            Alexa Toolbar工作原理:

    1、  Alexa Toolbar是通过BHO技术(附录中说明)和Toolbar Bands技术来监视IE行为的,IE浏览器的地址栏的每一次变化都逃不过Alexa的法眼。不过处于安全性考虑,Alexa Toolbar不会统计用户的HTTPS协议的流量。Alexa Toolbar其实就是向http://data.alexa.com发送HTTP请求来发出用户浏览信息的。(附录中说明)

    六、            附录:

    1、  BHO技术:是Browser Help Objects的缩写。它是COM组件,实现了接口IObjectWithSite。这些组件除了在注册表中注册为 COM Server外,还必须将它们的CLSID在HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\ CurrentVersion\Explorer\Browser Helper Objects下注册子键。 每当浏览器启动时,浏览器会首先在上述注册表位置查看是否有注册的BHO CLSID; 如果有则分别创建一个实例,并对BHO实例进行初始化,建立交互连接。

    2、  Alexa Toolbar最早之前IE发送Get的URL参数介绍:

    a)        传递格式为: /data/ezdy01DOo100QI?cli=10&dat=snba&ver=7.0&cdt=alx_vw%3D20%26wid%3D16865%26act%3D00000000000%26ss%3D1024x768%26bw%3D775%26t%3D0%26ttl%3D1125%26vis%3D1%26rq%3D2&url=http://20cn.net/~tabris17/

    b)        解码后格式为:/data/ezdy01DOo100QI?cli=10&dat=snba&ver=7.0& cdt=alx_vw=20&wid=16865&act=00000000000&ss=1024x768& bw=775&t=0&ttl=1125&vis=1&rq=2&url=http://20cn.net/~tabris17/

    c)        其中"ezdy01DOo100QI"是aid。 安装工具条时系统分配的唯一标示
    "cli=10&dat=snba&ver=7.0&cdt=alx_vw=20&"这部分是固定值。
    wid是个随机数。
    act数据包含了Alexa Toobar功能的被使用情况。
    ss很明显是屏幕分辨率了。
    bw是IE窗口的宽度。
    t取值是0或1,和当前IE的window对象还有referrer有关。
    ttl是当前页面打开速度,和Site Stats中的Speed有关。
    vis表明IE是否显示工具条。
    rq是对象计数器。

    d)       现在的Alexa传递参数奥妙之处在于Cookie部分,那里面保存了一些你的浏览隐私,所以Alexa把这部分数据加密了,通过一种类似于PGP的加密方法,你可以在Alexa Toolbar的代码中找到这个加密用的公钥 "d9adyz93472kb63z521t6e80wqpi56znb16fya6im3dr3xwe"。密钥只有Alexa自己有。

    3、  Alexa Toolbar的FireFox版发送URL参数介绍:

    a)        传递格式为:AuV591YZc400Wq?cli=10&ver=ff-1.3.0&dat=ns&cdt=rq%3D0%26wid%3D23122&ref=&url=http%3A%2F%2Fwww.baidu.com %2F

    b)        解码后信息为:AuV591YZc400Wq?cli=10&ver=ff-1.3.0&dat=ns&cdt=rq=0&wid=2130&ref=&url=http://www.baidu.com/

    c)        其中AuV591YZc400Wq是aid信息,安装工具条时系统分配的唯一标示。Cli=10&ver=ff-1.3.0&dat=ns&cdt=固定搭配写法

    Rq是对象计数器

    Wid是随机数

    Ref 还不清楚

    url 提交访问的地址信息

    4、  Aid唯一标示的组成:是由数字、字母(大小写)、符号(+、/)组成。

    第3位是按小写字母--〉数字--〉符号--〉大写字母顺序循环排列组合的

     第4位是按符号--〉数字   顺序排列组合

     第5位是按数字   顺序排列组合

     第6位是按数字           顺序排列组合

     第7位是按大写字母--〉     顺序排列组合

     第8位是按大写字母--〉   顺序排列组合

     第9位是按小写字母--〉   顺序排列组合

    第10位是按数字--〉小写字母  顺序排列组合

    第11位是按小写字母--〉数字(倒排序)   顺序排列组合

    第12位是按数字(倒排序)--〉 顺序排列组合

    第1/2/13/14位感觉都是随机数,范围是(数字,大小字母,小写字母,符号[+][/]) 变化速度快

    第5/6/7/8 逐渐变换最慢

    第5/6位 的变化规律是 十位进一

  • 相关阅读:
    浮点数二分
    [模板]整数二分
    Mybatis实现增删改查
    如何使用 KEIL 下载 HEX 文件?
    线程CPU使用率该如何计算?
    单片机里面的CPU使用率是什么鬼?
    ASP.NET Core 3.1使用JWT认证Token授权 以及刷新Token
    ASP.NET Core 3.1使用Swagger API接口文档
    Visual Studio 默认git拉取Github出错 No error could not read Username for 'https://github.com': terminal prompts disabled
    ASP.NET Core 3.1使用log4net/nlog/Serilog记录日志
  • 原文地址:https://www.cnblogs.com/Karson001/p/3060318.html
Copyright © 2011-2022 走看看