zoukankan      html  css  js  c++  java
  • 推荐系统实践笔记(四)

    第四章 利用用户标签数据

    流行的三个推荐系统联系用户和物品的方式:

      (1) item-base itemCF

      (2) user-base userCF

      (3) feature_base 隐语义模型以及UGC(User Generated Content)模型(用户标签模型)

    利用用户标签推荐的简单算法流程:

      (1) 统计每个用户最常用的标签。

      (2) 对于每个标签,统计被打过这个标签次数最多的物品  

      (3) 对于一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门物品推荐给这个用户。

      针对上述描述,用户u对物品i的兴趣公式为:$p(u,i) = sum_{b}n_{u,b}n_{b,i}$b为标签集合,$n_{u,b}$表示用户u打过标签b的次数,$n_{b,i}$是物品i被打过标签b的次数

    算法改进:

      (1) 兴趣计算公式$p(u,i) = sum_{b}n_{u,b}n_{b,i}$一样存在倾向于对热门标签有很大权重的问题,借助TF-IDF的思想对公式进行改进:这里$n_{b}^u$记录了标签b被多少个用户标记过.这个算法记为 TagBasedTFIDF 。同理,我们也可以借鉴 TF-IDF 的思想对热门物品进行惩罚,从而得到如下公式:

    $n_{i}^u$记录了物品i被多少个不用的用户打过标签.

      (2) 标签扩展

      用户兴趣和物品的联系是通过两者标签集合的交集来计算的,在冷启动问题中,新用户和新物品的标签很少,我们可以为其添加一些已有标签的相似标签.常用的方法有话题模型. 

      (3) 标签清理

      > 去除词频很高的停止词

      > 去除因词根不同造成的同义词,比如 recommender system 和 recommendation system ;

      > 去除因分隔符造成的同义词,比如 collaborative_filtering 和 collaborative-filtering 。 

     

    标签的推荐以及一些实现就略过不记了,要用的时候再深入理解.

      

  • 相关阅读:
    Nginx禁止IP,只允许指定域名访问
    预防vsphere勒索病毒,适用于 ESXi 6.x 中的 OpenSLP 安全漏洞 (CVE-2019-5544) 的权宜措施 (76372)
    解决 vCenter root 密码过期无法登陆 User password expired
    停用Veritas Smart Meter-概念与操作
    centos7.0 没有netstat 和 ifconfig命令问题
    MAVEN剪除传递依赖
    Spring+SpringMVC+MyBatis+Maven框架整合
    CentOS7配置MongoDB
    利用mybatis-generator自动生成代码
    idea提交本地项目到git
  • 原文地址:https://www.cnblogs.com/z1141000271/p/11387063.html
Copyright © 2011-2022 走看看