zoukankan      html  css  js  c++  java
  • ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

    上节我们介绍了系统的基本框架和特性,本文我们将通过该平台进行微博数据挖掘,并给出一些有意思的结果。

    一.微博和微博数据

    1.分析微博的意义

           新浪的数据以每天海量的速度增长,它包含了四亿网民的对国家大事的看法,对生活的诉求,对环境和人的观点,以及人际间关系,是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件,是有非常重要的意义的。

    2.加载微博分析独立组件    

    系统主要针对新浪微博,我们为微博开发了独立组件包,将其动态链接库dll文件拷贝到软件的插件目录下,系统就会自动加载。若不希望有该功能,只需简单删除链接文件库即可。

    image

    系统会将微博相关的算法,资源,数据类型加载到系统插件库中。

      3. 微博数据

    组件包内置了用户,微博,评论,热点事件的数据类型的支持,同时提供了Entity Framework的数据库访问能力,使用方便。同时,软件内置了新浪微博API接口,可以方便的从微博中采集微博数据,如下图所示:

    image

    获取数据后,可以通过下面的可视化组件查看这些数据。

    image

    您可以对这些数据做筛选,排序等操作,并送入数据管理器,为完成数据分析做准备。

    二. 微博分析功能

    1. 微博转发和信息溯源

    该功能可以让我们了解和分析任一条微博的被转发和评论情况,您可以以简单有效的方式查看微博的事件流传送过程。

    使用方法很简单,在数据管理器中选定任意一条微博,在系统菜单上点选“数据”中的”image“,系统即可自动进行分析,结果如下:

    image

    2.话题分类和观点分析

    该功能可以方便的对某用户的话题进行分类,并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

    通过内置的微博采集器获取某名人的微博信息。

    image

    将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器,并配置要处理的数据源。如下图所示:

    image

    最终可输出结果,分别以表格和图表的形式,给出分类结果。

    image

    3. 微博传播图谱

    微博在微博网络中被转发的结构,最终可表现为不同的传播模式,36KR的一篇文章介绍了这个特性,链接在这里

    我们也完成了类似的功能,并能实现动画布点,按照时间顺序,演示信息的转发逻辑。使用方法也很简单,类似本节第一条,在菜单中选取“微博传播网络”即可。

    以下是潘总的微博”本月结束了,跑步100公里目标都没有完成,仅97.6公里” 的转发关系图,明显的,二次转发较少,以一次转发为主。

    image

       三.用户关系行为分析

    1. 用户关系分析

    软件可以对某一批用户的关系进行分析,从而获得用户社团聚类,和人际关系网络。在用户关系分析中,我们采用了特别的相关度计算方法,结合用户的共同喜好,共同好友,地理位置等行为实现计算。当然,由于不同类型的用户可能具有完全不同的行为,软件会自动适配算法参数和权重,并送入聚类模块。

    将“微博用户关系计算”,聚类图形显示和K-Means数据聚类拖入算法处理器,如下图所示:

    image

    这些算法通过自动组装,可实现如下的计算流程:

    image

    用户关系计算的结果送入K-means聚类中,最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

    image

    最终,可获得好友关系圈,该人的好友主要分为两类,其本科同学和研究生同学。分类结果良好。若希望能更细分,可以将聚类参数进行调节,从而获得类似下图的结果:

    image(没有完全显示)

    2.用户数据统计

    图表统计输出拖入到算法处理器, 该模块会自动根据数据类型加载不同的统计方案,如下图所示,我们采用地理位置的数量统计方法来统计用户的好友地理分布,如图所示:

    image

    image

    3.用户地理位置显示

    软件可以根据微博的位置标签,显示某用户在一段时间内的位置信息,并显示在系统内置的地图上。如下图所示:

    image

    同时,还可以实现”路径漫游”功能,动态播放运动轨迹。

    四.总结和开发计划

      以上是软件平台目前关于微博的功能介绍。当然,这些结果还不完善。我们下一步的工作是:

    1. 对微博数据进行深入语义分析和更加智能的情感分析

    2. 微博的舆情分析,以及事件追踪图

    3. 对微博特殊用户,如僵尸粉丝予以识别

    4. 进一步了解和分析微博信息传播途径

    有任何问题,欢迎进一步交流。

  • 相关阅读:
    BZOJ2821 作诗(Poetize) 【分块】
    BZOJ2724 蒲公英 【分块】
    Codeforces 17E Palisection 【Manacher】
    BZOJ2565 最长双回文串 【Manacher】
    Codeforces 25E Test 【Hash】
    CODEVS3013 单词背诵 【Hash】【MAP】
    HDU2825 Wireless Password 【AC自动机】【状压DP】
    HDU2896 病毒侵袭 【AC自动机】
    HDU3065 病毒侵袭持续中【AC自动机】
    HDU2222 Keywords Search 【AC自动机】
  • 原文地址:https://www.cnblogs.com/buptzym/p/2796749.html
Copyright © 2011-2022 走看看