zoukankan      html  css  js  c++  java
  • Social Media附加价值开发的四大模式

    郑昀 20090830

    社会化媒体的可携带可传播数据是海量的,从中打捞珍珠并串成线,还是需要一些手段的。你不能简单地获取那些像水一样流动的数据来展示,无论你的界面多么漂亮,都没有太大价值,你必须增加一些附加价值。

    我大致归类这些附加价值,分为六大价值点:

    1. Conversations:根据数据之间的关联,建立对话形式;
    2. Breaking News:及时发现突发新闻;
    3. Trends:热点趋势捕获和展现;
    4. Recommendations:根据用户数据做个性化推送;
    5. Groups/Tags:按照主题打包数据。
    6. Search:搜索。

    可能还有更多,欢迎留言或Tweets补充(follow zhengyun)。

    国际上通行的增加附加价值的模式,我总结有四大模式,如下所示。

    一、基于链接检测的聚合模式

    这个模式非常好理解。只不过,我定义之所以叫链接“检测”,是因为链接并不显著,或在正文中隐藏,或在 Tweets 中隐藏,需要你特地提取出来。所以这个模式不包括 RssMeme 。

    2005年9月上线的 Techmeme 作为本模式的最优秀代表,就深刻地教育了 mashup 开发者,原来 链接检测 混搭 适当的A-List 有如此高的信息过滤效率。

    Techmeme 在 Blog 时代称雄一时。到了 Twitter 时代,后起之秀是 TweetMeme ,上线之初,它并没有像 Techmeme 一样大放光彩,但随着 Twitter 的如日中天,它终于爆发了,它的 Alexa 全球排名基本稳定在2200名左右。

    Techmeme 和 TweetMeme 的“聚合”都很容易理解,它们都是把成百上千条信息的复杂度隐藏/合并到一个主题下。

    backtype WidgetSRCBacks 等新型评论聚合服务,它们最为显著的功能是,在任何站点上安装 Widget 后,就可以显示有哪些人在各种 Social Media 站点上针对当前链接做出的评论或推荐,如Twitter、Google Reader、Facebook、MySpace、Digg等等。它们都要检测并储存所有链接的关联数据,比如谁收藏了这个链接,谁在 Twitter 中推荐了这个链接。

    目前处于被维护状态的 玩聚SR 也属于本模式,一个教训就是,在国内做这种模式,必须对聚合到的链接做自动分类,并彻底抛弃掉时政类的链接。顺便说一句,TweetMeme 的分类做得非常好。

    二、基于重复文字检测的聚合模式

    Google News和百度新闻的新闻聚合,都属于本模式。它们可以通过检测近期发布的资讯之间的内容重合度,能将同一个主题的资讯合并在一起,也就是以文本相似性为技术基础的。

    本模式一般是广泛收集新闻媒体信源,标记不同的权重度,做成扫描列表;然后通过爬虫抓取最新的新闻。通过对最近一段时间内的新闻计算文本相似性,可以获知哪些文章的相似度高于预设阈值,那么就说明这些文章是近似一个话题,可以合并。

    目前处于被维护状态的 玩聚中文锐推榜@rtmeme) 也属于本模式,针对微博客的重复内容检测,是不会采用文本相似性技术的,而是有点像搜索引擎去重技术中的“信息指纹检测重复”,尽力给每个独立消息生成一个信息指纹。国外类似的锐推监测服务是 dailyRT ,但由于它并没有给出锐推历史,所以 无法确认它是否属于本模式。

    三、基于标签的聚合模式

    标签可以是原信息拥有的,也可以是自动提取的。

    在 Twitter 领域,由于拥有 #hashtags ,所以本模式相对容易做。Twubs 就是一个范例,它有点像 Twitter Groups,根据 #hashtags 实时显示 Tweets ,对某tag感兴趣的人可以直接订阅对应的Twub,比如 Follow Friday

    WeFollow 首创了用 #hashtags 来标识Twitter用户特征的做法,随后中国开发者也开发了几个类似的应用,如早期的 Twitter中文用户目录 以及 最近的 Twitese 的Rank

    当年的奇虎聚客也属于这种模式,虽然严格意义上它属于“基于关键词的主题聚合模式”。

    四、基于情感分析的聚合模式

    这个模式稍微有些复杂。

    Microsoft的Live Product Search,现在改为“Bing Shopping”,可以作为本模式的优秀范例。请点击“Apple iPod touch digital player”的user reviews搜索结果,可以看到机器生成的“Popular Features”,这些指标的评分就来自于机器分析抓取来的网络点评,从中提取出情感趋势以及对应的指标。

    在Twitter领域,也有不少网站属于本模式,但多半停留在雕虫小技上,尚未成为主力应用。

    本模式所基于的语义技术,更多详情,请参考我的文章《情感分析方向近况·0908》,此处不再赘述。

    好,这就是常见的增加社会化媒体数据附加值的四个模式。如果你观察到更多模式,请评论或Tweet。

    郑昀(follow zhengyun) 北京报道 20090830

  • 相关阅读:
    C#基础知识——类的继承
    值传递与引用传递01
    今天接到任务了!
    傅立叶变换,时域,频域二
    傅立叶变换,时域,频域一
    常用运放选型一览表
    用三段140字符以内的代码生成一张1024×1024的图片
    [收藏夹整理]电子类链接
    [收藏夹整理]三维重构部分
    MSP430之自动增益程控放大main备份
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/1556966.html
Copyright © 2011-2022 走看看