zoukankan      html  css  js  c++  java
  • Social Media排序算法的四种模式

    郑昀 20090905

    在Social Media领域,不管是搜索结果,还是页面展示,只要不是编辑挑选的,只要是机器智能决定的,都需要以某种顺序排列。

    那么,除了按时间顺序或按投票数排列外,还会有哪些有效的展示模式呢?

    下面罗列我所见:

    模式一、Reddit模式

    Reddit的排序算法一文曾经介绍过 Reddit 会综合考虑以下因素:

    • 文章的新鲜程度;
    • 支持票数和反对票数;
    • Discoverers和Followers效应(削减Followers的投票权重)。

    Reddit-Rank

        图1 Reddit 排序示例

    从上图可以看出,让新鲜且投票数还不足够多的文章能快速突破进入榜单,是很重要的。

    从Social Media海量数据中寻找专家的五大手法中SPEAR模式认为:“专家应该是发现者,而不是趋势的跟随者。experts应该是第一批收藏和标记高质量文章的人,从而召唤起社区内其他用户的围观。用户发现优质内容越早,表明该用户专业程度越高。所以,要区分“Discoverers”和“Followers”。”Reddit 正是通过log10 的使用,使得早期的投票(即Discoverers)获得更大的权重。比如,前10票获得的权重,与11到101票所获得的权重是一样的。

    如你所知,玩聚SR 在给出热门链接时也采用了同样的排序规则,我曾经给出过简化的算法

    模式二、OneRiot PulseRank模式

    实时搜索引擎 OneRiotPulseRank,能够充分地把社会化因素考虑进来,做到搜索结果排序的 Socially Relevant 。

    PulseRank 所考虑的因素:

    • 新鲜程度 Freshness ;
    • 域名的权威程度 Domain Authority :这个不同Team会有不同看法,到底是传统门户的域名权重更大,还是独立博客的域名更有价值。
    • 推荐者的权重 People Authority :系统要能识别推荐者是否是spammer,要能发现某些推荐者总是推荐同一个链接或者同一个域名下的链接(你总是日复一日地推荐某一个站的链接,应该降低你的权重),也要能发现某些人的推荐总能得到更大范围的“二次传播”。
    • 传播加速度 Acceleration :主要检测推荐的速率,从而区分新出现的页面和广为人知的热门页面。

    当然它还考虑来自Twitter、Digg以及OneRiot Share的推荐数量。

    推荐越多,排在Pulse搜索结果最前面的可能性越大;新鲜程度也影响非常大,其他因素的影响比较难以被注意到。所以这还是 Reddit模式的增强版,只不过聚合了不同Social站点的推荐数,并加了几个因子。

    参考资源:

    1、Ranking Algorithm for the Realtime Web: OneRiot “Pulse Rank” Update

    模式三、digg模式

    Digg 有很多技巧:

    1、投票的速度:比如一篇文章最开始的半小时内能迅速收集到40~50个投票,那么是谁投的就无关紧要,这篇文章就会上首页。

    2、投票用户的级别。不过Digg的《A couple updates》宣布了Top users总是伴随着行为异常和可憎,所以本因素将不断被降低。并且如果你拥有非常多的好友,那么你提交的文章就需要更多的Digg才能上首页,通常是新用户的2~3倍。

    3、评论的数量,以及评分的数量。如果一篇文章有40个评论,其中20个对它评级在-4分以下,那么显然这篇文章不会上首页。

    4、Bury的数量。还会考虑到Bury的类型,如重复的故事、Spam、错误的分类等。如果一篇文章在Upcoming队列中,获得了3个Bury,那么它就永远被Buried了。如果文章是在首页并且拥有1000个Diggs,那么需要大约10~15个Bury才能让它消失(消失指只能访问最终页面,任何类别的导航页都不会看到这篇文章了)。

    5、投票用户的 Popular Ratio。如果10~15个Popular Ratio在70%以上的用户都投了一篇文章,那么它上首页会很容易。你可以 Digg用户页面上查到每个用户的Popular Ratio。

    Digg 的算法久经考验,不断被修正,并且充分利用了它所能收集的一切信息,值得借鉴。

    和 Digg 一样,Newsvine 也考虑得很全:

    • 用户的声望;
    • 用户好友的声望;
    • 评论;
    • 域名权重;
    • 浏览数和停留时间。

    参考来源:

    1、The Digg Algorithm - Unofficial FAQ

    2、Newsvine Algorithm and potential ranking factors for exposure

    模式四、Seeds模式

    这是一种第三方应用深入某个Social Media的刺探式统计方法。事先选定一个key users集合(比如创始人以及其他核心用户,被称之为“seeds”),然后从这批用户开始扫描建立Social Graph,通过统计inbound links和好友关系,得出被扫描的social media的不同指标的排行榜,这就是Spinn3r rank所用到的手法。这种模式并不限于计算Top Users。

    它所用到的两个技巧倒是经常看到:

    • 从 Approved Sources 开始扫描:一个好的算法,当然要从好源开始,Techmeme 和 玩聚SR 都是这么做的;
    • 遍历 friendship :spammers或水平不那么高的用户,要想从 seeds 这里获得连接显然是不大可能的。

    好了,这就是我观察到的Social Media中经常出现的几种排序规则算法。如果你有补充,请留言或follow me

    郑昀 北京报道 20090905

    其他参考文章:

    1、What is InfluenceRank?

    2、ranking by semantic similarity

    还推荐您阅读我的以下文章:

    1、Social Media附加价值开发的四大模式

    2、分析人的网络轨迹和碎片之四大模式

    3、[语义]情感分析方向近况·0908

    4、从Social Media海量数据中寻找专家的五大手法

  • 相关阅读:
    python2.7之打飞机(文末附素材链接)
    python画小猪佩奇
    什么叫递归
    DIV居中的几种方法
    什么是控制反转
    上传图片及时预览
    MVC与三层的区别
    From表单提交刷新页面?
    文件上传之form表单篇
    文件上传之伪Ajax篇
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/sortAlgorithm.html
Copyright © 2011-2022 走看看