zoukankan      html  css  js  c++  java
  • 微博情感分析可用于异常或突发事件的监测

    在线社交网络在近几年得到迅速发展,如国内的新浪微博在不到三年的时间已积累了近3亿用户,平均每秒有超过1000条的新微博产生。这些微博不仅反 应了一些事件信息,同时也附加了用户对事件的情感表达。基于此,北航软件开发环境国家重点实验室的先进网络分析研究小组(GANA)希望通过新浪微博的情 感分类和波动分析,来实现物理世界异常或突发事件的监测。 该小组将微博的情感分为愤怒、厌恶、高兴和低落四类。与传统的文本情感理解中将感情色彩简单分为褒贬两类不同,他们认为,将贬,即负面情绪进行 进一步的细分,更有利于事件性质的区分和判断。以收集并处理得到的超过350万条具有情感标注的微博为语料,他们实现了一个快速分类器,且通过增量学习等 策略解决了诸如新词产生、词汇感情色彩演化等带来的问题。

    利用该分类器,研究小组对收集到的发布于2011年的近7000万条微博进行情感分析,根据各类情绪比例的波动,他们提出一个快速的异常点发掘算法,并发 现2011年全年发生的一些典型的异常或突发事件,均可以被有效地检测出来,甚至可以观察事件带来影响的持续时间等,有效地论证了基于微博情感理解实现事 件监测的可信性。如下图示,其中以A-I标记了检测出的top-10异常点(天)。如F对应新年,以高兴的情绪为主;G,I对应春节,也以高兴的情绪为 主;而A、D、E则对应动车事故,明显看到用户以低落悲伤的情感为主,同时愤怒的情绪比例也明显上长升至全年最高;C、B和J对应日本3月份的地震,以低 落的情绪为主,但对J点,即2011年03月17日,愤怒的情感比例突然增加,这与当时的盛传碘盐被污染、盐荒等谣言有关;H对应苹果前CEO乔布斯逝 世,以低落的情绪为主,但同时,愤怒的情绪比例极低,与前面的动车事件和碘盐谣言有明显的区别。

    图1:各类情绪比例的变化,其中横轴单位为天,来自该小组已投稿报告。

    同时,他们亦对新浪微博用户的一些情感波动模式进行了观察,如下图示,有趣的是,他们发现早上6:00到7:00之间用户情绪最为低落,主要原因是“不愿起床”或“不想上班”。

    图2:新浪用户情绪波动的小时模式,其中横轴为时间,来自该小组已投稿报告。
    该小组亦开发了实时监测系统,以30分钟为周期,不间断地对新浪微博情感变化进行实时跟踪和监测,如下图示,为2012年起始至今的波动曲线及一些异常点对应的事件。有趣的是,因为新浪评论功能的短暂关闭,用户情绪中厌恶的比例曾出现罕见地上升。

    图3:实时监测数据示例,每30分钟分析一次。

    据悉,该研究小组已公开他们的初步应用系统MoodLens,可以通过访问http://gana.nlsde.buaa.edu.cn/hourly_happy/moodlens.html进行使用。稍后,他们将会陆续对大学等研究机构免费公开所使用的微博情感标注语料库和其他相关数据集。
  • 相关阅读:
    Centos常用快捷键
    ngnix笔记
    转载申明
    Linux 最小安装常用包
    update-alternatives关键解疑
    使用Java语言开发机器学习框架和参数服务器
    storm实践
    JVM线程状态,park, wait, sleep, interrupt, yeild 对比
    PHP版本解密openrtb中的价格
    Minimum Path Sum
  • 原文地址:https://www.cnblogs.com/shihao/p/2571390.html
Copyright © 2011-2022 走看看