zoukankan      html  css  js  c++  java
  • 微博用户行为分析

    通过强过滤之后的用户数目283178个,微博数目431726条:

    1,原始数据

     1    240085        1    240085    5.380365027
    2    28475        2    28475    4.454463733
    3    4279        3    4279    3.631342286
    4    2748        4    2748    3.439016728
    5    1461        5    1461    3.164650216
    6    364        6    364    2.561101384
    7    174        7    174    2.240549248
    8    123        8    123    2.089905111
    9    73        9    73    1.86332286
    10    40        10    40    1.602059991
    11    38        11    38    1.579783597
    12    18        12    18    1.255272505
    14    17        13    17    1.230448921
    15    15        14    15    1.176091259
    13    10        15    10    1
    20    8        16    8    0.903089987
    16    8        17    8    0.903089987
    17    6        18    6    0.77815125
    37    5        19    5    0.698970004
    19    5        20    5    0.698970004
    18    5        21    5    0.698970004
    26    3        22    3    0.477121255
    23    3        23    3    0.477121255
    30    2        24    2    0.301029996
    24    2        25    2    0.301029996
    22    2        26    2    0.301029996
    21    2        29    2    0.301029996
    43    1        30    1    0
    42    1        33    1    0
    38    1        35    1    0
    35    1        37    1    0
    33    1        38    1    0
    29    1        42    1    0
    25    1        43    1    0
                        
                        
    第一列和第二列是原始数据                    
    第四列和第五列是更正排序之后的数据()                    
                        
    第一列用户活跃度                    
    第二列该活跃度下的用户数                    
    第三列更正之后的用户活跃度                    
    第四列为错误的用户活跃的数目                    
    第五列是对第四列求导数                    
    用户原始数据

    最终得到的用户活跃度图形是

    这张图中横坐标是用户活跃度(用户评价的节目数量),纵坐标是该活跃的的用户数目进行求导

    用户活跃度的双对数曲线如下:

    除了开始部分,其它倒是符合双对数的时候为一条直线的情况

    和预期有差别的原因

    1)商品数据(这里是节目数据)太少,用户活跃度<46

    2)超过90%的用户都是只发一条微博

    关于用户的流行度,处理之后的原始数据

    套马杆    11446
    天耀中华    9210
    想你的365天    8656
    在那遥远的地方    7922
    野蜂飞舞    6374
    同光十三绝    5133
    符号中国    4979
    答案    4554
    扰民    4368
    我的要求不算高    4184
    老阿姨    3786
    万泉河水    3733
    剑心书韵    3559
    说你什么好    2605
    英雄赞歌    2301
    空空拜年    2284
    康定情歌    2135
    魔幻三兄弟    2081
    梦蝶    2051
    人到礼到    2031
    青春舞曲    2018
    小马欢腾    1997
    站在高岗上    1770
    团圆饭    1481
    最好的夜晚    1390
    英雄组歌    1377
    我就这么个人    1070
    张灯结彩    932
    百花争妍    774
    光荣与梦想    728
    年味儿    594
    欢歌    501
    练兵舞    468
    天下黄河九十九道弯    387
    我的中国梦    148
    舌尖上的春晚    53
    春晚节目流行度原始数据

  • 相关阅读:
    为什么需要配置环境变量
    Highcharts使用简例 + 异步动态读取数据
    使用SQL检测死锁
    2015.12.21-2015.12.25单词
    SQL Server锁定【2015.12.17】
    SQL SERVER 并发【2015.12.16】
    SQL闲杂知识点汇总【2015年12月】
    键和约束【2015.12.11】
    [笔记]聚集索引和非聚集索引相关知识点
    论Top与ROW_NUMBER读取第一页的效率问题
  • 原文地址:https://www.cnblogs.com/bobodeboke/p/3841697.html
Copyright © 2011-2022 走看看