zoukankan      html  css  js  c++  java
  • 搜狗搜索日志分析

    1. 概述

    本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。

    第一阶段首先下载数据,并在自己电脑上安装好实验所需的环境,然后通过数据扩展和数据过滤对原数据进行预处理,得到含有单独年、月、日、小时等字段且关键词和UID不为空的数据,最后将数据加载到HDFS上,并在Hive上创建数据库和数据表,将过滤后的数据灌入Hive中对应的表中,因而后续便可以通过在Hive中执行SQL语句对日志数据进行查询分析。

    第二阶段为分析阶段,也分为两部分,一部分是单维度的数据描述性分析,另一部分时多维度的用户行为分析。在单维度的数据描述行分析中,分别针对总的条数、时间、关键词、UID、URL、RANK等单个的字段进行描述统计,例如对每个时间段的查询条数、关键词搜索排行榜、UID搜索排行榜、URL搜索排行榜等进行了查询统计,从而对数据有了一个大概的全局的把握;在多维度的用户行为分析中,以查询最多的用户、点击最多的网址、指定的关键词等为切入点进行深入的用户行为分析,例如在对查询最多的用户的用户行为分析中,通过其搜索的关键词及其频次,得到其目前的兴趣点等,通过其在每个时段的搜索次数,得到其大致的时间行为规律,这对于理解用户行为,描述用户画像,从而定向地针对性地进行广告推荐都是有一定的意义的。

    2. 数据准备

    2.1 实验环境

    Cloudera QuickStart VM将包含所需的所有内容,例如CDH,Cloudera Manager,Cloudera Impala和Cloudera Search等,还包括教程,示例数据和入门脚本。Cloudera QuickStart虚拟机(单节点集群)可以轻松快速地进行CDH实验,以便进行测试,演示和自学,并包括Cloudera Manager以管理您的集群。

    本文的使用的Cloudera QuickStart VM的版本是:

    Cloudera-quickstart-vm-5.5.0-0-virtualbox

    操作系统:Red Hat (64 bit)

    内存大小:4096MB

    处理器:2

    所使用的virtualbox的版本是:VirtualBox-4.3.12-93733-Win

    Cloudera QuickStart VM开启后的截图如下:

     

    Hive查询操作页面截图如下:

    2.2 数据描述

    本文选取搜狗实验室提供的搜狗搜索日志数据,共计五百万条,每一行为一条记录,每条记录基本上含有ts、uid、rank、order、url等字段,字段的具体意义如表1所示。

    表1 搜索日志中的内容

    名称

    内容

    ts

    用户点击发生时的日期时间

    uid

    由系统自动分配的用户识别号

    rank

    该URL在返回结果中的排名

    order

    用户点击的顺序号

    url

    用户点击的URL

    其中,UID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户识别号。

    3. 数据预处理

    3.1 数据扩展

    将原数据中包含时间的字段拆分并拼接,添加年、月、日、小时字段,以便后续在HDFS中进行分块存储。分割时间字段的shell脚本sogou-log-extend.sh的具体代码如下:

    #!/bin/bash

    infile=$1

    outfile=$2

    awk -F ' ' '{print $0" "substr($1,0,4)" "substr($1,4,2)" "

    substr($1,6,2)" "substr($1,8,2)}' $infile > $outfile

    在终端执行此shell脚本:

    [cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-extend.sh /home

    /cloudera/500w/sogou.500w.utf8 /home/cloudera/500w/sogou.500w.utf8.ext

    则sogou.500w.utf8.ext文件即为在原数据的基础上添加年、月、日、小时字段的文件。

    3.2 数据过滤

    完成数据扩展后,然后过滤UID和keyword字段为空的记录。数据过滤的shell脚本sogou-log-filter.sh的具体代码如下:

    #!/bin/bash

    infile=$1

    outfile=$2

    awk -F " " '{if($2 != "" && $3 != "" && $2 != " " && $3 != " ") print $0}' $infile > $outfile

    在终端执行此shell脚本:

    [cloudera@quickstart ~]$ bash /home/cloudera/sogou-log-filter.sh /home

    /cloudera/500w/sogou.500w.utf8.ext /home/cloudera/500w/sogou.500w.utf8.

    flt

    则sogou.500w.utf8.flt即为过滤后的数据文件。

    3.3 数据加载

    将原数据文件sogou.500w.utf8和过滤后的数据文件sogou.500w.utf8.flt加载到HDFS上。在系统终端执行如下代码:

    hadoop fs -mkdir -p /sogou/20111230

    hadoop fs -put ./sogou.500w.utf8 /sogou/20111230

    hadoop fs -mkdir -p /sogou_ext/20111230

    hadoop fs -put ./sogou.500w.utf8.flt /sogou_ext/20111230

    由此,已将数据加载到HDFS系统中,然后在Hive上创建日志数据的数据表。

    首先在终端启动hive,在hive环境下创建数据库sogou:

    hive> create database sogou;

    hive> use sogou;

    然后,创建扩展4个字段(year, month, day, hour)数据的外部表:

    hive> CREATE EXTERNAL TABLE sogou.sogou_ext_20111230(

    > ts STRING,

    > uid STRING,

    > keyword STRING,

    > rank INT,

    > order INT,

    > url STRING,

    > year INT,

    > month INT,

    > day INT,

    > hour INT

    > )

    > COMMENT 'This is the sogou search data of extend data'

    > ROW FORMAT DELIMITED

    > FIELDS TERMINATED BY ' '

    > STORED AS TEXTFILE

    > LOCATION '/sogou_ext/20111230';

    创建带分区的表:

    hive> CREATE EXTERNAL TABLE sogou.sogou_partition(

    > ts STRING,

    > uid STRING,

    > keyword STRING,

    > rank INT,

    > order INT,

    > url STRING

    > )

    > COMMENT 'This is the sogou search data by partition'

    > partitioned by (

    > year INT,

    > month INT,

    > day INT,

    > hour INT

    > )

    > ROW FORMAT DELIMITED

    > FIELDS TERMINATED BY ' '

    > STORED AS TEXTFILE;

    最后,把HDFS中的数据灌入到刚刚创建的表中:

    hive> set hive.exec.dynamic.partition.mode=nonstrict;

    hive> INSERT OVERWRITE TABLE sogou.sogou_partition PARTITION(year,month,

    day,hour) select * from sogou.sogou_ext_20111230;

    到现在为止,已把经过预处理的数据加载到hive中,后续便可以在hive中执行SQL语句进行查询分析。

    4. 单维度数据描述性分析

    4.1  条数统计

    查看前10条数据:

    hive> select * from sogou.sogou_ext_20111230 limit 10;

     

    前10条数据的具体信息如下:

    查询数据的总条数:

    hive> select count(*) from sogou.sogou_ext_20111230;

    查询非空查询条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where keyword is not null and keyword !='';

     

    查询无重复总条数(根据ts、uid、keyword、url)

    hive> select count(*) from (select ts,uid,keyword,url,count(*) as cnt from sogou.sogou_ext_20111230 group by ts,uid,keyword,url) a where a.cnt==1;

     

    查询UID唯一的条数:

    hive> select count(distinct(uid)) from sogou.sogou_ext_20111230;

     

    可知,(a) 本数据文件中共包含500万条数据;

    (b) 非空查询条数为5000000条,即所有的数据的keyword都不为空;

    (c) 以ts、uid、keyword、url字段作为判断记录是否重复的标准,得到的无重复总条数为4998321条;

    (d) UID唯一的条数共有1352664条,即在此段时间内共有1352664个用户进行来搜狗搜索。

    4.2   时间分析

    查询每个时间段查询的条数:

    hive> select year,month,day,hour,count(*) as cnt from

     sogou.sogou_ext_20111230 group by year,month,day,hour order by

     year,month,day,hour;

    得到的结果如下:

    time

    cnt

    time

    cnt

    2011123000

    90752

    2011123017

    289648

    2011123001

    65702

    2011123018

    295207

    2011123002

    45880

    2011123019

    340115

    2011123003

    34242

    2011123020

    353099

    2011123004

    27922

    2011123021

    328949

    2011123005

    28213

    2011123022

    270842

    2011123006

    32988

    2011123023

    194554

    2011123007

    52832

    2011123100

    64

    2011123008

    165616

    2011123101

    5

    2011123009

    279104

    2011123102

    1

    2011123010

    315973

    2011123103

    2

    2011123011

    276103

    2011123104

    2

    2011123012

    274234

    2011123106

    3

    2011123013

    295936

    2011123109

    1

    2011123014

    306242

    2011123116

    2

    2011123015

    318645

    2011123120

    2

    2011123016

    317120

       

    根据上面的得到的数据,绘制2011年12月30日这一天各时间段的查询条数的条形图如下:

    可知,(a) 2011年12月30日这一天中共有4999918条,而2011年12月31日仅有82条,可能本数据集中采集的12月31日的数据不全;

    (b) 在2011年12月30日这一天中,0-4时的的查询次数逐渐减少,到4时达到最低,然后慢慢上升,特别在7-9时的增加特别显著,到9-10时逐渐趋于稳定,每个小时大概有300000次查询,到21时后查询次数开始减少。基本符合人们的作息时间;

    (c) 在查询次数稳定的时间段内,即9-21时,中间有两次低谷,分别在11-12、17-18,这可能是因为此时间段是人们的中饭、晚饭时间,所以表现出查询次数的略微减少。

    4.3  关键词分析

    查询关键词的长度指的是用户提交的查询中包含几个词语或字(用空格隔开的)。

    查询关键词的平均长度

    hive> select avg(a.cnt) from (select size(split(keyword,'\s+')) as cnt from sogou. sogou_ext_20111230) a;

    可知查询关键词的平均长度为1.0869984,这说明用户输入的查询通常比较短,这也意味着中文搜索引擎得到的用户需求信息更少,需要对用户需求有更多的分析和经验,才能更加准确地返回用户需求的信息。

    查询关键词各长度的条数

    hive> select a.cnt,count(*) as total from( select uid,size(split(keyword,

    '\s+')) as cnt from sogou.sogou_ext_20111230) a group by a.cnt order by a.cnt;

    得到的结果如下:

    a.cnt

    total

    a.cnt

    total

    a.cnt

    total

    1

    4672047

    11

    175

    21

    10

    2

    260746

    12

    125

    22

    6

    3

    48424

    13

    82

    23

    11

    4

    11359

    14

    50

    26

    14

    5

    3288

    15

    38

    27

    3

    6

    1522

    16

    33

    31

    6

    7

    859

    17

    24

    32

    3

    8

    506

    18

    41

    36

    1

    9

    328

    19

    8

    45

    1

    10

    263

    20

    27

     

     

    图表表示如下:

    可知,(a) 查询关键词的长度最短为1个词,最长为45个词;

    (b) 关键词长度为1的条数为4672047条,关键词长度为2的条数为260746,关键词长度为3的条数为48424,关键词长度为4的条数为11359条,关键词长度为5的条数为3288,关键词长度为6的条数为1522,而关键词长度大于6的条数低于1000条,关键词长度大于12的条数低于100条,关键词长度为36、45的条数仅为1条;

    (c) 查询关键词长度为1的条数占总查询条数的93.44%,查询关键词长度为2的条数占5.21%,即查询关键词的长度小于等于2的条数为98.65%,几乎占据了所有的查询条数,这也再次说明了用户的查询关键词长度一般为1-2个词,与上面得到的查询关键词平均长度为1.087相符;

    (d) 从图中也可以看出,关键词长度为1的条数远大于关键词长度为2的条数,可知,大多数查询还是只用一个关键词。

    查询查询频度最高的前1000词:

    hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 group by keyword order by cnt desc limit 1000;

    得到的部分结果如下(截取前50):

    keyword

    cnt

    keyword

    cnt

    百度

    38441

    龙门飞甲

    3917

    baidu

    18312

    qq个性签名

    3880

    人体艺术

    14475

    张去死

    3848

    4399小游戏

    11438

    cf官网

    3729

    qq空间

    10317

    凰图腾

    3632

    优酷

    10158

    快播

    3423

    新亮剑

    9654

    金陵十三钗

    3349

    馆陶县县长闫宁的父亲

    9127

    吞噬星空

    3330

    公安卖萌

    8192

    dnf官网

    3303

    百度一下 你就知道

    7505

    武动乾坤

    3232

    百度一下

    7104

    新亮剑全集

    3210

    4399

    7041

    电影

    3155

    魏特琳

    6665

    优酷网

    3115

    qq网名

    6149

    两次才处决美女罪犯

    3106

    7k7k小游戏

    5985

    电影天堂

    3028

    黑狐

    5610

    土豆网

    2969

    儿子与母亲不正当关系

    5496

    qq分组

    2940

    新浪微博

    5369

    全国各省最低工资标准

    2872

    李宇春体

    5310

    清代姚明

    2784

    新疆暴徒被击毙图片

    4997

    youku

    2783

    hao123

    4834

    争产案

    2755

    123

    4829

    dnf

    2686

    4399洛克王国

    4112

    12306

    2682

    qq头像

    4085

    身份证号码大全

    2680

    nba

    4027

    火影忍者

    2604

    将查询频度最高的前1000词用词云可视化如下:

    可知,(a) 用户搜索百度时最常用的关键词时“百度”,共有38441条,其他的还有“baidu”、“百度一下”、“百度一下 你就知道”也比较常用,其中“百度一下”和“百度一下 你就知道”用作关键词的频次差不多。这几种关键词加起来共有71362条,说明百度时人们搜索东西时的首选的搜索引擎;

    (b) 从关键词前50来看,4399游戏分别以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条、“4399 洛克王国” 关键词出现了4112条,可见,目前4399是比较受欢迎的小游戏网站,特别是“洛克王国”这个小游戏更是受欢迎;

    (c) 从关键词前50来看,优酷网站分别以“优酷”关键词出现了10158条,“优酷网”关键词出现了3115次,“youku”关键词出现了2783次,可见,目前优酷时比较受欢迎的视频网站;

    (d) 从关键词前50来看,目前大众比较关注的新闻热点时“馆陶县县长闫宁的父亲”、“新疆暴徒被击毙图片”等;

    (e) 从关键词前50来看,目前大众比较关注的电视剧或电影是“新亮剑”、“龙门飞甲”、“凰图腾”、“金陵十三钗”等。

    4.4 UID分析

    UID平均查询次数:

    hive> select sum(a.cnt)/count(a.uid) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) a;

     

    可知,一个UID的平均查询次数为3.6964094557111005次。

     

    查询1次、2次、3次、大于3次的UID个数:

    hive> select SUM(IF(uids.cnt=1,1,0)),SUM(IF(uids.cnt=2,1,0)),

    SUM(IF(uids.cnt=3,1,0)),SUM(IF(uids.cnt>3,1,0)) from (select uid,count(*) as cnt from sogou.sogou_ext_20111230 group by uid) uids;

     

    则可知,(a) 查询次数为1次的用户总数为549148,查询次数为2次的用户总数为257163,查询次数为3次的用户总数为149562,查询次数大于3次的用户总数为396791。

    (b) 查询次数大于2次的用户总数为149562+396791=546353,且占比为546353/(549148+257163+149562+396791) = 546353/1352664=0.4039,这意味着有40.39%的用户的搜索次数大于2次,而有一半多的用户都仅进行了1-2次的搜索行为。

    用户搜索次数排行榜:

    hive> select uid,count(*) as total from sogou.sogou_ext_20111230 group by uid order by total desc limit 50;

     

    uid

    total

    uid

    total

    02a8557754445a9b1b22a37b40d6db38

    11528

    7b634a16c60058536990c0c55c79eb42

    340

    cc7063efc64510c20bcdd604e12a3b26

    2571

    6a7d4670dd26d878e12b2c048c280648

    337

    9faa09e57c277063e6eb70d178df8529

    2226

    fb3b5f51387932c8996baca6abd54921

    337

    7a28a70fe4aaff6c35f8517613fb5c67

    1292

    13140b934a265e8967344050a4d6ddca

    322

    b1e371de5729cdda9270b7ad09484c4f

    1277

    a519967011de16ee5f1aa257f25271b9

    313

    c72ce1164bcd263ba1f69292abdfdf7c

    1120

    779752cf3d115b126f33d2dab9a1351a

    312

    2e89e70371147e04dd04d498081b9f61

    837

    e6e112274223c10e22fd7a117c6b1b60

    312

    06c7d0a3e459cab90acab6996b9d6bed

    720

    efcfeccce2328288693568905be5ebfd

    298

    b3c94c37fb154d46c30a360c7941ff7e

    676

    f3075aeb9962db17cea21b14797ee19b

    289

    beb8a029d374d9599e987ede4cf31111

    676

    b9095a863d4d1a8bd16d4977c4ee9e7b

    289

    f41fd2711156d4b255f2dcf236d6bb39

    641

    2b4d3ef902df2dc0ac6993460075384b

    288

    c65b26d0ceb14896ad901d3c4265e23d

    590

    02eb52814598699374d8a8e60796415c

    288

    5342261d204710ccaabd3425bc1c5c2c

    502

    3330efbf34dd148f14a02e0e7bf8032a

    286

    d53f50eeda326b5ac64c8782c9935f1b

    480

    f2941355b9bd97ba9cd6f1fb1f31079e

    286

    910c5227f0d2ffd870e5b7a9ade789c6

    477

    ffadcf2db46dc5fc9d7787656ebd7aa4

    283

    91e62d9148c8d9f71110a4248176a769

    472

    a9c13627ae747fffc1f1d5d4c08d1fba

    279

    deff5f2f6b0dd83d6c0609f0ac5a77b3

    464

    6056710d9eafa569ddc800fe24643051

    277

    1cf709c4444193f4e4f4f8704ec0ef48

    458

    120f417c9fbc95e6d95ebd3faf89a05e

    276

    91de518dad55cd180bba4f1be54c470b

    429

    e6a6f8003b3c768e6d13be4b4fed97bb

    275

    4f38c9cc4b139f69722a1afd95053105

    425

    ee3649c13d209ab84d474c812c680082

    272

    0d56cf20da81670adf923373d50b7dbc

    422

    4fb363d1939017db6cd9e8406e6528e0

    270

    1fbbbcd2587944e60d0dcd4ccac76a78

    420

    637b29b47fed3853e117aa7009a4b621

    266

    b4251b30f49e932818bcebf6e15aa9c7

    394

    d60806329cb0e4383d52f6753cef98b4

    259

    955c6390c02797b3558ba223b8201915

    391

    ba64758bfc5ca184c143d1344da7323a

    257

    8a5bdb441ad0fa41599caf0c3dbdde9e

    388

    0422c6b3504addf0e90bd6835285f2b9

    251

     

    可知,(a) 查询次数最多的UID为02a8557754445a9b1b22a37b40d6db38,查询了11528次;

    (b) 查询次数最多的用户查询了11528次,查询次数第二的用户查询了2571次,查询次数第三的用户查询了2226次,查询次数第四的用户查询了1292次,查询次数第五的用户查询了1277次,查询次数第六的用户查询了1120次,其他的用户均小于1000次;

    (c) 查询次数最多的用户的查询次数远远大于查询次数第二的用户;

    (d) 从查询次数第15的用户开始,用户间查询次数的差别不大,基本保持在10以内的差别;

    4.5 URL分析

    url点击排行榜:

    hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 group by url order by cnt desc limit 50;

    得到的结果如下:

    url

    cnt

    url

    cnt

    http://www.baidu.com/

    73737

    http://10086.cn/service/

    3559

    http://www.4399.com/

    19015

    http://www.qiyi.com/

    3441

    http://www.hao123.com/

    14338

    http://sfz.8684.cn/

    3408

    http://www.youku.com/

    14086

    http://www.12306.cn/mormhweb/

    3401

    http://qzone.qq.com/

    12920

    http://www.ccb.com/

    3342

    http://www.7k7k.com/

    8326

    http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

    3295

    http://weibo.com/

    7547

    http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

    3275

    http://cf.qq.com/

    7544

    http://www.qzone.cc/gexing/qian/

    3262

    http://www.xixiwg.com/

    7043

    http://www.jprenti.com/

    3199

    http://www.12306.cn/

    6961

    http://www.10010.com/

    3136

    http://dnf.qq.com/

    6835

    http://site.baidu.com/

    3126

    http://bbs1.people.com.cn/postDetail.do?id=112546724

    6325

    http://news.ifeng.com/mainland/special/hetianpaichusuozaoxi/content-3/detail_2011_07/20/7804125_0.shtml

    3104

    http://www.a67.com/

    6048

    http://www.dytt8.net/

    3087

    http://www.qqwangming.org/

    6004

    http://www.nbtxt.com/detail/12477/

    2942

    http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

    5508

    http://www.icbc.com.cn/

    2838

    http://www.tudou.com/

    5444

    http://tv.youku.com/

    2821

    http://www.zhibo8.com/

    4930

    http://www.qzone6.com/

    2785

    http://www.taobao.com/

    4928

    http://cf.qq.com/act/a20111109happy/new.htm

    2670

    http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

    4589

    http://mail.163.com/

    2647

    http://www.4399.com/flash/32979aa.htm

    4128

    http://www.qzone.cc/gexing/name/

    2620

    http://www.qqgexing.com/

    4062

    http://www.sina.com.cn/

    2606

    http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

    3847

    http://mail.qq.com/

    2605

    http://movie.youku.com/

    3817

    http://sports.sina.com.cn/nba/

    2558

    http://www.5173.com/

    3748

    http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

    2507

    http://baike.baidu.com/view/2414016.htm

    3724

    http://10086.cn/

    2491

    可知,(a) 用户最后选中url为百度网站的条数为73737条,与在关键词分析中得到的所有查询百度关键词的条数71362条基本吻合,这可能是因为在关键词分析中除了前50中出现的用户在搜索百度网站时用到的关键词外,还有少量用户用了一些少见的关键词来搜索;

    (b) 用户最后选中url为4399小游戏网站的条数为19015条,这与在关键词分析中得到的以“4399小游戏”关键词出现了11438条、“4399” 关键词出现了7041条,共18479条的数据基本吻合。此外,7k7k小游戏的url点击次数为此类网站第二,为8326次,可能是其潜在的竞争对手;

    (c) 用户最后选中url为优酷网站的条数为14086条,居此类网站第一,这意味着优酷网站基本上是人们看视频的首选网站;

    (d) 此外,人们常用的网站还有qq空间、微博、12306、淘宝等。

    直接输入URL作为查询词的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where keyword  like '%www%';

    直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数:

    hive> select SUM(IF(instr(url,keyword)>0,1,0)) from (select * from

     sogou.sogou_ext_20111230 where keyword  like '%www%') a;

     

    可知,(a) 直接输入URL作为查询词的条数为73979条,占总记录的1.48%;

    (b) 直接输入URL的查询中,点击的结果就是用户输入的URL的网址的条数为27561条,占37.26%,从这个比例可以看出,很大一部分用户提交含有URL的查询是由于没有记全网址等原因而想借助搜索引擎来找到自己想浏览的网页。因此搜索引擎在处理这部分查询的时候,一个可能比较理想的方式是首先把相关的完整URL地址返回给用户,这样有较大可能符合用户的查询需求。

    4.6  RANK分析

    Rank在10以内的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank < 11;

    由得到的结果可知,Rank在10以内的条数为4999869,占总记录的99.997%。这意味着用户在搜索时常常只翻看搜索引擎返回结果的前10个结果,即返回结果页面的第一页。这个用户行为决定了尽管搜索引擎返回的结果数目十分庞大,但真正可能被绝大部分用户所浏览的,只有排在最前面的很小一部分而已。所以传统的基于整个结果集合查准率和查全率的评价方式不再适用于网络信息检索的评价,我们需要着重强调在评价指标中有关最靠前结果文档与用户查询需求的相关度的部分。

    5.  多维度用户行为分析

    5.1 查询次数最多的用户的用户行为分析

    由UID分析部分的结果可知,在2011年12月30日这一天中查询次数最多的用户是02a8557754445a9b1b22a37b40d6db38,下面来具体分析其用户行为。

    查看用户02a8557754445a9b1b22a37b40d6db38所查询的关键词及其频次

    select keyword,count(*) as cnt from sogou.sogou_ext_20111230  where

     uid='02a8557754445a9b1b22a37b40d6db38' group by keyword order by cnt

     desc;

    得到的部分结果为(频次最高前50):

    keyword

    cnt

    keyword

    cnt

    幼交小说

    41

    baidu

    11

    我和草原有个约定广场舞

    37

    小说下载 txt 电子书 免费下载

    11

    伦理快播

    36

    cf官网

    11

    遮天

    29

    五菱荣光商务车报价

    11

    保险公司的内勤都是靠关系才能进的吗

    28

    沙特女人吃饭

    11

    联想u260 二手

    25

    601106

    11

    新亮剑

    24

    2012年会搞笑创意节目

    10

    百度

    24

    154四肖

    10

    人体艺术

    23

    韩金军

    10

    qq头像

    20

    芭比公主

    10

    E52如何用灵图9

    17

    赛尔号

    10

    宁夏金源伟业科技有限公司

    17

    网上订火车票

    10

    qq空间

    17

    低保证明怎么写

    10

    优酷

    16

    1683168

    10

    快播

    15

    qq网名

    10

    后宫甄嬛传

    13

    4399洛克王国

    10

    钱多多嫁人记

    13

    中国移动

    10

    酒店工程部个人工作计划

    13

    cf

    10

    沙特女人

    13

    大魔头

    10

    新浪微博

    12

    天目湖旅游度假区开发与水环境保护

    9

    凰图腾

    12

    4399

    9

    http://72dnc.com

    11

    理赔内勤

    9

    龙门飞甲

    11

    雪豹

    9

    金陵十三钗

    11

    玛哈嘎拉图片

    9

    百度一下 你就知道

    11

    三国杀

    9

    将查询次数大于等于5的关键词可视化为词云如下:

     

    可见,(a) 此用户近段时间比较感兴趣的广场舞是“我和草原有个约定”;

    (b) 此用户近段时间可能有意向找保险公司内勤类的工作;

    (c) 从词云上可以看出,此用户比较喜欢用长度较长的词语作为关键词进行搜索行为;

    查看用户02a8557754445a9b1b22a37b40d6db38在2011年12月30日这一天的各时间段内的查询次数:

     

    select hour,count(*) as cnt from sogou.sogou_ext_20111230  where

     uid='02a8557754445a9b1b22a37b40d6db38' group by hour order by hour

     desc;

    得到的结果如下:

    hour

    cnt

    hour

    cnt

    0

    239

    12

    638

    1

    186

    13

    663

    2

    62

    14

    661

    3

    44

    15

    723

    4

    29

    16

    753

    5

    40

    17

    697

    6

    49

    18

    711

    7

    90

    19

    892

    8

    308

    20

    885

    9

    529

    21

    887

    10

    591

    22

    740

    11

    610

    23

    501

     

    可见,(a) 用户在3-7时处于搜索行为的低谷期,基本维持在每小时40条左右的搜索量;

    (b) 用户在8时、9时的搜索增长速率最大,之后在16时之前保持稳步上升;

    (c) 用户在17时和18时的搜索量出现局部最低,可能时用户的晚饭时间,因而搜索量减少;

    (d) 用户在19-21时的搜索量达到一天中的最高峰,用户搜索行为最活跃,可考虑在此时段投放推荐广告等。

    5.2 所有url为百度的网站搜索的关键词是什么

    由URL分析部分的结果可知,在2011年12月30日这一天中点击次数最多的网站是http://www.baidu.com/,下面来进行具体分析。

     

    查看用户点击http://www.baidu.com/所用的搜索关键词及其计数:

    hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where url="http://www.baidu.com/" group by keyword order by cnt desc;

    得到的结果如下:

    keyword

    cnt

    keyword

    cnt

    百度

    35498

    百度网

    48

    baidu

    17560

    baibu

    45

    百度一下 你就知道

    6880

    badu百度

    41

    百度一下

    6673

    baudu

    39

    www.baidu.com

    1446

    baudu百度

    39

    BAIDU

    794

    www。百度

    39

    bdu百度一下

    256

    baud百度一下

    36

    百度 一下 你就知道

    247

    百度一下,你就知道

    36

    baid

    220

    beidu

    34

    bai

    177

    baiud

    32

    www

    160

    baidu]

    31

    百度首页

    160

    bai du

    31

    156

    badu

    30

    白度

    121

    百度地图

    30

    www。baidu.com

    107

    baiu

    30

    www.baidu

    106

    www。baidu

    28

    百度、

    94

    wwwbaiducom

    26

    摆渡 百度一下

    94

    bidu

    26

    百度 一下

    93

    about:百度

    25

    baidu

    87

    百度一下首页

    25

    www。baidu。com

    86

    baidui

    25

    搜索 baidu

    82

    baiducom

    24

    搜索 百度

    61

    百度知道

    23

    baodu

    61

    baiduyixia

    22

    摆渡

    53

    百度。com

    22

     

    可见,用户在搜索一个网站时可能出现各式各样的搜索关键词,因而模糊匹配到用户想要的网站很重要,建议模糊匹配频次较高的搜索词。

    查询点击http://www.baidu.com/各个时间段的条数:

     

    hive> select hour,count(*) as cnt from sogou.sogou_ext_20111230 where url="http://www.baidu.com/" group by hour order hour;

    hour

    cnt

    hour

    cnt

    0

    1588

    12

    3986

    1

    1428

    13

    4297

    2

    1146

    14

    4569

    3

    989

    15

    4626

    4

    788

    16

    4741

    5

    795

    17

    4438

    6

    717

    18

    4732

    7

    699

    19

    4962

    8

    2038

    20

    4918

    9

    3367

    21

    4461

    10

    3995

    22

    3800

    11

    3695

    23

    2962

     

    可见,搜索百度网站的在时间上的分布基本上与所有搜索行为在时间上的分布大概一致,这也从侧面说明了百度为人们广泛应用。

    5.3 查询关键词“仙剑奇侠传”的用户行为分析

    查询搜索过“仙剑奇侠传”的uid

    hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230  where keyword='仙剑奇侠传' group by uid order by cnt desc;

    得到的结果如下:

    uid

    cnt

    uid

    cnt

    653d48aa356d5111ac0e59f9fe736429

    6

    3bc04a0444c08239fca551ad95ca08ae

    1

    e11c6273e337c1d1032229f1b2321a75

    5

    3c9a09e25828ca7fa441c9ef16c66a80

    1

    4d1af2d521b2e72978a68815087dd550

    3

    45e623de82433688a756275af9be61cc

    1

    ab90b6700c0f205c520f07e4cc1d7b96

    3

    50152c1874febb5c7b81075b6437fae0

    1

    2b71bae0c544d0049be8b2bde01b795f

    3

    51815c0afe0237b8c43f8aa12011a60a

    1

    81f26b22a6e52f14c40647c25feb269c

    3

    5dbe046d05d4397adb2d8dda0b421773

    1

    82bf38b33596975e1511b8c1f9519644

    3

    a296f675947f027625f1a4d60ae67e23

    1

    ba64758bfc5ca184c143d1344da7323a

    3

    bc615ad74bc05647e59f46ab4da92af6

    1

    6901e38fa48949c6e3450c1042dc0c73

    3

    dc953c98270ec152dbdae786160c6a2e

    1

    02f1e94feaa001f5a19d6d97a5f25f9f

    2

    fb570c116c556ddb3d712142bcd652b2

    1

    0ee5179ff89b568dbce2c73136c535c5

    2

    0d84be52ca3783cd87ac9e9b04e200c6

    1

    1e57f18af1d9b646c8a003f66720aaa5

    2

    3b5295a9c7dc63d10a235bab9c04995b

    1

    2ae3984c3f82650b6c0189e6763be408

    2

    3fcf0f637c1e97445ae53d0813274771

    1

    80b65ac2d2f993af78e5484c766e4119

    2

    5da853c2fa6535b2a03382afd493a4d7

    1

    99313ba2ea15907e0a8f335c6d74f314

    2

    7b61cc65359eef75581b86f766a644dd

    1

    a4f3dbfb256bd25c7e58a1b030c8d95d

    2

    84724ec293a70aeff25c5983141ea52d

    1

    ad5cfe784c8aa492eb57c4db6a932ad0

    2

    b05e49b63ca201549b53a7b7be6b22cb

    1

    b4b379f3719ce038655c2e816a4542d4

    2

    b4b0b57023f41c9c232af15feec897aa

    1

    ea7d6638294045636fcf92c161d51050

    2

    c78d90abb6d97eef073e70c8ad143a35

    1

    17533946097b22f09e67741b5f84a8c6

    2

    ecdb9ff3f0046824d8ff90da47e6bcb0

    1

    785934a66a53fbe6bc135275283868c1

    2

    f231ab96f2bf7c18f527506ecc5ee1a7

    1

    908dd24c58050e2e3f0b132b387e9fdd

    2

    00160e665054e5f5168183d2766a483c

    1

    91881679246d00f7b34f0e3313ee0439

    2

    108414df6fe049fb5f0811d6ac600424

    1

    9ded72abf69dc3efe556fcbf752df92f

    2

    3cb06a2751e4c2f5d9fc7032edc8d531

    1

    c0c82a8fc022c2d64f14188f550954a0

    2

    55361f45e44caa332157b6e8941179da

    1

    c9f632be1d7c5f188323f35dfc4264ea

    2

    57208ce9ef99e760b5bdd9ba992ffe6d

    1

    f7336296dc7c69a2ffc2178e7c8a7e94

    2

    863fae4c7c86dc6daa5b55dd1ffe3eb9

    1

    10fc3f82e8175a90e8c41e3a2cd86812

    2

    9931ab69327e87878283a1dbc13c9619

    1

    a530d6385be5967da6dc74f38012a610

    2

    bac9b55d9b7107dd5b0cdd5ce388d169

    1

    bc5817fbcd5e2b5d20dc50a29470c262

    2

    c4acf1919ed442fb11b8c1a32dd91def

    1

    db6eb39cf39d747b4446fe83bc9fe1c3

    2

    c5a8bc8c1bcc742cb1bd98bb560f2d91

    1

    03dcbe547d94f80cafdd1ea7c91c1680

    1

    cbea098bc581fcf1ecf85922a8b08df5

    1

    04356f4d2ecaa3774c8024619fb37d30

    1

    dc4b344aaa0dc765bb5ecee4eca377cc

    1

    1875e8e340b25647b03a9e4edf05d34f

    1

    e15cb20f47f519832254d707c36ffbab

    1

    2f1636d6e198ddf154526ca96a0f99fc

    1

    e7c8fee27af3d4d3ad778106660b47e2

    1

    375e1d62e8696d5cf3379c557fbf64f2

    1

    e9dfe73b154e0a3c99a28427d196e439

    1

    可知,查询“仙剑奇侠传”较多的用户是653d48aa356d5111ac0e59f9fe736429,为6次,和用户e11c6273e337c1d1032229f1b2321a75,为5次;下面来进一步分析这两个用户的用户行为。

    查找uid为653d48aa356d5111ac0e59f9fe736429的相关搜索记录:

    hive> select * from sogou.sogou_ext_20111230 where

     uid='653d48aa356d5111ac0e59f9fe736429';

    得到的结果为:

    keyword

    url

    放羊的星星

    http://tv.sohu.com/s2010/fydxx/

    放羊的星星

    http://tv.sogou.com/series/wxt4vu5644qlpror6k24jugh2ddq.html?p=40230600

    放羊的星星

    http://tv.sohu.com/s2010/fydxx/

    我可能不会爱你

    http://tv.sohu.com/s2011/wknbhan/

    仙剑奇侠传

    http://www.163dyy.com/detail/500.html

    仙剑奇侠传

    http://www.tvmao.com/drama/WVgxbA==/episode

    7聊

    http://www.7liaos.com/

    7聊

    http://www.7liaos.com/

    仙剑奇侠传

    http://www.163dyy.com/detail/500.html

    仙剑奇侠传第一部全集

    http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

    仙剑奇侠传第一部

    http://www.youku.com/playlist_show/id_16700878.html

    仙剑奇侠传1

    http://tv.sogou.com/series/wxt4vu5644qm7sn5updont6awsv3lwwsxozl6.html?p=40230600

    仙剑奇侠转1

    http://www.youku.com/playlist_show/id_3549043.html

    仙剑奇侠传

    http://www.163dyy.com/detail/500.html

    仙剑奇侠传

    http://www.114dyw.com/teleplay1/xianjianqixiachuan/

    仙剑奇侠传

    http://www.163dyy.com/detail/500.html

    可见,(a) 用户653d48aa356d5111ac0e59f9fe736429搜索“仙剑奇侠传”的目的是为了观看影片;

    (b) 用户653d48aa356d5111ac0e59f9fe736429 希望观看仙剑奇侠传第一部;

    (c) 同时,放羊的星星也是用户653d48aa356d5111ac0e59f9fe736429目前比较感兴趣的电视剧。

    查找uid为e11c6273e337c1d1032229f1b2321a75的相关搜索记录:

    hive> select * from sogou.sogou_ext_20111230 where

     uid='e11c6273e337c1d1032229f1b2321a75';

    得到的结果为:

    keyword

    url

    仙剑奇侠传4官网

    http://pal4.52pk.com/

    仙剑奇侠传4结局

    http://zhidao.baidu.com/question/196334214

    仙剑奇侠传4

    http://baike.baidu.com/view/10142.htm

    仙剑奇侠传3

    http://baike.baidu.com/view/33571.htm

    仙剑奇侠传2

    http://baike.baidu.com/view/246644.htm

    仙剑奇侠传

    http://baike.baidu.com/view/2188.htm

    仙剑奇侠传三外传

    http://baike.baidu.com/view/246650.htm

    仙剑奇侠传四动画

    http://www.56.com/w77/play_album-aid-1824744_vid-MTY3MjkwOTc.html

    仙剑奇侠传3结局动画

    http://v.youku.com/v_show/id_XNDczMTU3Ng==.html

    仙剑奇侠传3结局

    http://zhidao.baidu.com/question/143395514

    仙剑奇侠传三

    http://baike.baidu.com/view/4219.htm

    仙剑奇侠传三游戏剧情

    http://zhidao.baidu.com/question/106721096

    仙剑奇侠传三

    http://baike.baidu.com/view/4219.htm

    仙剑奇侠传四

    http://baike.baidu.com/view/31425.htm

    仙剑奇侠传

    http://baike.baidu.com/view/2188.htm

    仙剑奇侠传二

    http://baike.baidu.com/view/246644.htm

    仙剑奇侠传

    http://baike.baidu.com/view/2188.htm

    阿奴

    http://baike.baidu.com/view/47446.htm

    仙剑奇侠传

    http://baike.baidu.com/view/2188.htm

    仙剑奇侠传二

    http://baike.baidu.com/view/246644.htm

    仙剑奇侠传

    http://baike.baidu.com/view/2188.htm

    Grenade

    http://baike.baidu.com/view/2086505.htm

    北京庐舍宾馆

    http://baike.baidu.com/view/4916228.htm

    北京庐舍宾馆

    http://www.zhuna.cn/hotel-23516.html

    北京庐舍宾馆

    http://www.17u.cn/HotelInfo-27993.html

    北京庐舍宾馆

    http://www.sunnychina.com/hotel/hotel_15894.html

    北京庐舍宾馆

    http://www.yoostrip.com/hotel/hotel_17602.html

    北京庐舍宾馆

    http://hotel.elong.com/detail360_cn_00101382.html

    如家

    http://www.homeinns.com/

    东洛杉矶学院

    http://baike.baidu.com/view/4932647.htm

    东洛杉矶学院

    http://www.elac.edu/

    可见,(a) 用户e11c6273e337c1d1032229f1b2321a75搜索“仙剑奇侠传”的目的更可能是对名为“仙剑奇侠传”的游戏感兴趣;

    (b) 用户653d48aa356d5111ac0e59f9fe736429 对仙剑奇侠传3和仙剑奇侠传4的结局比较感兴趣;

    (c) 此外,用户653d48aa356d5111ac0e59f9fe736429对北京庐舍宾馆的搜索次数达到6次,可能其近期要出行。

    5.4 较活跃的时间段的行为分析

    由时间分析部分的结果可知,在2011年12月30日这一天中搜索行为最活跃的时间段为19-21时,下面来进行具体分析。

    在活跃时间段内点击网址排行榜:

    hive> select url,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by url order by cnt desc;

    得到的结果如下(前50):

    url

    cnt

    url

    cnt

    http://www.baidu.com/

    14341

    http://www.qzone.cc/gexing/qian/

    750

    http://www.4399.com/

    4606

    http://www.nbtxt.com/detail/12477/

    744

    http://www.youku.com/

    3356

    http://sfz.8684.cn/

    739

    http://www.hao123.com/

    2836

    http://www.5173.com/

    719

    http://qzone.qq.com/

    2188

    http://10086.cn/service/

    716

    http://www.7k7k.com/

    2092

    http://www.zhibo8.com/

    703

    http://cf.qq.com/

    1490

    http://www.dytt8.net/

    691

    http://www.qqwangming.org/

    1463

    http://tv.sogou.com/movie/wxt5hmbazkt4dnndwor3hthm.html?p=40230600

    672

    http://www.xixiwg.com/

    1435

    http://tv.youku.com/

    666

    http://www.a67.com/

    1413

    http://www.qzone.cc/gexing/name/

    646

    http://tv.sogou.com/series/wxt4vu5644qnbqwbyg62g.html?p=40230600

    1401

    http://www.jprenti.com/

    606

    http://weibo.com/

    1355

    http://tv.sogou.com/series/wxt4vu5644qmplvw4c3obpg6zdf3zry.html?p=40230600

    604

    http://tv.sogou.com/series/wxt4vu5644qlvwv27q.html?p=40230600

    1226

    http://www.10010.com/

    600

    http://www.tudou.com/

    1202

    http://www.ffdy.cc/

    578

    http://www.12306.cn/

    1094

    http://www.ct10000.com/

    573

    http://www.qqgexing.com/

    1040

    http://site.baidu.com/

    570

    http://movie.youku.com/

    1000

    http://www.ccb.com/

    565

    http://dzh.mop.com/whbm/20111230/0/FgSO8zI2887052Fz.shtml

    975

    http://bugu.cntv.cn/live_cctv5/index.shtml

    530

    http://dnf.qq.com/

    949

    http://tv.sogou.com/series/wxt4vu5644qmrs5vxxf4jsvo.html?p=40230600

    517

    http://www.qiyi.com/

    921

    http://www.qzone6.com/

    515

    http://baike.baidu.com/view/2414016.htm

    901

    http://www.touxiang.cn/

    505

    http://www.taobao.com/

    889

    http://cf.qq.com/act/a20111109happy/new.htm

    505

    http://www.4399.com/flash/32979aa.htm

    886

    http://10086.cn/

    504

    http://tv.sogou.com/series/wxt4vu5644qlxs6nxtgnu.html?p=40230600

    850

    http://www.12306.cn/mormhweb/

    504

    http://tv.sogou.com/movie/wxt5hmbaxxymd2wkv3ep33wo.html?p=40230600

    827

    http://web.sanguosha.com/

    501

    可见,(a) 在19-21时的活跃时间段内,点击量前5的网站分别是百度、4399游戏、优酷、好123网址导航、QQ空间,可以考虑此时段在这几个网站上投放广告等;

    (b) 在19-21时的活跃时间段内,百度网站的点击量为14341次,占全天总次数73737次的19.49%;

    在活跃时间段内搜索关键词排行榜:

    hive> select keyword,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by keyword order by cnt desc;

    得到的结果如下(前50):

    keyword

    cnt

    keyword

    cnt

    百度

    7172

    新亮剑全集

    811

    baidu

    3516

    电影

    792

    4399小游戏

    2781

    快播

    769

    人体艺术

    2627

    优酷网

    736

    优酷

    2507

    电影天堂

    706

    新亮剑

    2333

    youku

    689

    公安卖萌

    2159

    cf官网

    679

    qq空间

    1732

    吞噬星空

    672

    4399

    1666

    新疆暴徒被击毙图片

    662

    魏特琳

    1608

    qq分组

    660

    黑狐

    1580

    土豆网

    658

    百度一下 你就知道

    1573

    武动乾坤

    655

    qq网名

    1534

    凰图腾全集

    652

    7k7k小游戏

    1524

    仙逆

    645

    百度一下

    1449

    儿子与母亲不正当关系

    644

    李宇春体

    1267

    张去死

    640

    龙门飞甲

    1205

    火影忍者

    620

    qq头像

    1017

    赛尔号

    598

    新浪微博

    1011

    钱多多嫁人记

    574

    hao123

    967

    迅雷看看

    559

    123

    909

    季莫申科情人 图

    556

    qq个性签名

    904

    遮天

    549

    凰图腾

    901

    身份证号码大全

    541

    金陵十三钗

    874

    失恋33天

    535

    4399洛克王国

    870

    土豆

    527

    可知,(a) 在19-21时的活跃时间段内,用户搜索的最多的关键词依旧是百度,这说明百度已是用户的首选搜索引擎;

    (b) 在19-21时的活跃时间段内,用户搜索的关键词排行与全天的用户搜索关键词的排行并无较大区别。

    在活跃时间段内用户排行榜:

    hive> select uid,count(*) as cnt from sogou.sogou_ext_20111230 where day=31 and hour in (19,20,21) group by uid order by cnt desc;

    得到的结果如下:

    uid

    cnt

    uid

    cnt

    02a8557754445a9b1b22a37b40d6db38

    2664

    0d56cf20da81670adf923373d50b7dbc

    99

    cc7063efc64510c20bcdd604e12a3b26

    590

    91e62d9148c8d9f71110a4248176a769

    91

    7a28a70fe4aaff6c35f8517613fb5c67

    305

    116773275003fd2abffc4288f13b1745

    90

    b1e371de5729cdda9270b7ad09484c4f

    292

    b7dce820ccdb4b3a75a64cbf9dcc11c5

    90

    c72ce1164bcd263ba1f69292abdfdf7c

    254

    7b634a16c60058536990c0c55c79eb42

    89

    9a12bf7ee5ea954660092df0ef34acb4

    177

    ba8c0225b1b6062e892e04982073db7a

    87

    ef86311727c54aa1d1bda5cc4ffcd329

    173

    648754a2563bd5b36e028afbe927dfd1

    87

    84e781a747ac7d0d723c8b9f0cc6b87f

    169

    9ded8ab2cc8504e1d6cf87903f5e25b8

    86

    13140b934a265e8967344050a4d6ddca

    156

    e6e112274223c10e22fd7a117c6b1b60

    86

    3e6a34613757d1ce0f6d6d97102ebaad

    142

    2aa714ded74edc258a7dd5c5e2c75015

    84

    deff5f2f6b0dd83d6c0609f0ac5a77b3

    130

    02eb52814598699374d8a8e60796415c

    83

    f41fd2711156d4b255f2dcf236d6bb39

    124

    f3075aeb9962db17cea21b14797ee19b

    83

    b3c94c37fb154d46c30a360c7941ff7e

    123

    4f38c9cc4b139f69722a1afd95053105

    82

    06c7d0a3e459cab90acab6996b9d6bed

    120

    c25a84ec0f90088b35a34d5d7d3264dd

    81

    c3ac142de38ded8dfe7f24f927ea4829

    120

    955c6390c02797b3558ba223b8201915

    81

    779752cf3d115b126f33d2dab9a1351a

    116

    878158a83a09246e78d920129f83f77c

    81

    d53f50eeda326b5ac64c8782c9935f1b

    114

    6ff3b606c01fff5ebff1e2b2bbef2d31

    81

    b08b9d292d1aa0986f01b50bc5b4cec3

    110

    a53cc832a80241ba08754401331b3d87

    80

    91857a446849a86f2722f1ed885814d9

    108

    d524ac3d106082da06ec70b45e40d8af

    77

    b4251b30f49e932818bcebf6e15aa9c7

    105

    ab754186afd495ff1eccb3ecea0d2898

    76

    9907a0874dec6825bc797a73eb0d6d29

    103

    9223efff33f092f888106e3f5ce4912b

    76

    f050339e5fd8c08948b3474b7fc67eb7

    101

    beb8a029d374d9599e987ede4cf31111

    75

    71907d498018fad5c612c72606130681

    101

    e425eb5aebfdcec0f8f4aa05aba21e64

    75

    7bd1088c653b53934dc4e1d31aa911eb

    100

    91de518dad55cd180bba4f1be54c470b

    73

    c65b26d0ceb14896ad901d3c4265e23d

    99

    ffadcf2db46dc5fc9d7787656ebd7aa4

    73

    可知,(a) 在19-21时的活跃时间段内,进行搜索行为最多最活跃的用户是02a8557754445a9b1b22a37b40d6db38,与全天进行搜索行为最多最活跃的用户是同一个;

    (b) 在19-21时内,最活跃用户02a8557754445a9b1b22a37b40d6db38的搜索次数远大于排名第二的用户,此情形与全天的搜索排行情况相同。

    5.5 Rank与Order的相关性分析

    被用户第一次点击的总条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where order=1;

    Rank 前10的被第一次点击的条数

    hive> select count(*) from sogou.sogou_ext_20111230 where rank<11 and order=1;

    Rank 前5的被第一次点击的条数

    hive> select count(*) from sogou.sogou_ext_20111230 where rank<6 and order=1;

    Rank前3的被第一次点击的条数

    hive> select count(*) from sogou.sogou_ext_20111230 where rank<4 and order=1;

    Rank前1的被第一次点击的条数

    hive> select count(*) from sogou.sogou_ext_20111230 where rank<2 and order=1;

    可知,(a) 被用户第一次点击的条数为3465833条;

    (b) Rank为前10、5、3、1的网站被第一次点击的条数分别为3465784条、3197784条、2898900条、1942685条,分别占所有被用户第一次点击的总条数的99.9986%、92.266%、83.64%、56.05%,Rank为前1的条目被点击的概率已达到56.05%,说明Rank为前1的条目被点击的概率是很大的,而且用户第一次点击的几乎所有都是Rank在10以内的条目,可考虑将重要更匹配用户搜索字段的条目放在Rank前10的位置。

    所有Rank为1的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank=1;

    Rank为1的条目在1次内被点击的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<2;

    Rank为1的条目在3次内被点击的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<4;

    Rank为1的条目在5次内被点击的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<6;

    Rank为1的条目在10次内被点击的条数:

    hive> select count(*) from sogou.sogou_ext_20111230 where rank=1 and order<11;

    可知,(a) 所有Rank为1的条数为2071720条;

    (b) Rank为1的条目在1次内被点击、在3次内被点击、在5次内被点击、在10次内被点击的条数分别为1942685条、2062703条、2070397条、2071720条,分别占Rank为1总条数的93.77%、99.56%、99.94%、100%,Rank为1的条目在1次内被点击的概率已达到93.77%之高,而在3次内被点击的概率达到99.56%,说明Rank为1的条目基本上三次内便会被用户点击到,可见rank为1的条目的重要性,可考虑将更重要更匹配用户搜索字段的条目放在此处。

    由此可知,Rank与Order有一定的相关性,一般来讲,被放在越前面的条目更可能被用户点击到,即rank越小,order倾向于越小。

  • 相关阅读:
    移动端Web前端注解
    Atom 必备插件
    Gulp 前端自动化构建
    RESTful API 设计
    Cookie 的 增删查
    三步实现 AngularJS URL 去 # 号
    AngularJS $http 之 POST 传参
    Angular.JS中使用$watch监听模型变化
    AngularJS $apply() 解析
    [个人笔记]IDEA+MAVEN+testNG(reportNG)
  • 原文地址:https://www.cnblogs.com/Hyacinth-Yuan/p/8287845.html
Copyright © 2011-2022 走看看