zoukankan      html  css  js  c++  java
  • xx

    新闻推荐系统的方案:

    新闻(这里的新闻除了包括传统的新闻外,还指博客、微博、rss feed等,因为它们具有以下的共性)推荐方面的工作:

    Google News的个性化:Personalized News Recommendation Based on Click Behavior 展示了如何考虑领域特点和数据特点,有效改进推荐系统//Google News Personalization: Scalable Online Collaborative Filtering// 

      Google的第一篇文章,也可以看做他们做新闻推荐的第一个阶段,是一个从无到有的过程。他们采用了三种方法做推荐,LSH/Minhash, PLSI 和co-visition。前两种都是用于聚类,把每一个用户都分到他所属的类中,然后将该类用户的集体点击行为聚合在一起,作为对当前用户的推荐。
    Co-visition就是一种item-based的推荐方法,通过发行item之间的关联性来做推荐。可以看到,在这一阶段,他们最关心的是可扩展性
    scalability的问题,LSH/Minhash是很快速并且很容易并行化的方法;而PLSI又在各领域表现不俗,因而他们也实现了
    mapreduce版本,并用到新闻推荐里面来。最后的实验表明,这3种方法综合运用起来能取得最好的结果,比向用户推荐popular的新闻提高了
    38%。后来Amazon出来的Greg评价说这个数值,比他们在电子商务中用CF来做推荐相对于推荐流行商品,提高的要少得多。我想这可能跟算法有一定关系,但也跟两个领域不同相关,因为在新闻领域,由于用户对热门流行的需求相对较强,所以popular的方法效果不会很差,因此在这个基础上提高38%
    也算不错的结果了。

            今年IUI上他们的这篇paper,可以看作是第二阶段。针对新闻领域自身的特点,直接用前面的协同过滤解决不了的时候,对原有算法做的补充和增强。新闻领域有如下几个特点:一是新闻这种 item的时效性很强,更新速度快。比如一个大的新闻网站,新闻条目的总数和Amazon上商品的总数是差不多的,但是新闻条目的更新速度是远远快于商品的,即它的生命周期非常短,可能只有几个小时或几天。这对推荐系统的性能架构和推荐质量(用户满意度)都提出了更高的要求。随之而来就产生了first rater问题,即一则新的新闻,可能才出来的一段时间,浏览点击的人非常少或基本没有,这样一般推荐算法就推不出来;如果等到数据积累够了,可能已经过了若干小时了。二是新闻领域里的用户—读者,更容易受流行和热门的item影响。因为毕竟大家都对当时当地的热点事件很好奇,而且点击一则热门新闻的成本显然比购买一本流行书的成本低很多。因此,如果一则新闻非常流行,很多人都去看,就像大家的购物篮里面都有这个东西一样,计算和其他item的相关性时,它就很占便宜,往往容易被推荐出来。

  • 相关阅读:
    (转)使用Regex.Replace只替换字符串一次
    转:div超出范围显示省略号
    ibatis This SQL map does not contain a MappedStatement
    ibatis 多表关联
    ibatis 传入xml Hashtable的应用以及动态字段出错的解决方法
    前台学习过程
    转:C#动态循环生成button怎么分别写他们的事
    在oracle DB 中通过JOB 调用存储过程
    sybase与oracle存储过程的写法对比
    游标Oracle游标使用大全
  • 原文地址:https://www.cnblogs.com/zzblee/p/4015082.html
Copyright © 2011-2022 走看看