蒋凡翻译的这本:https://book.douban.com/subject/24746415/
1. 引言
协同过滤:适合有大量用户的行为信息库的情况
- 如果用户在过去有相同的偏好(浏览、买过相同的书),那么他们在未来也会有相似的偏好
基于内容推荐:适合物品属性易获取、用户量较少的情况(用户偏好也能获取)
- 需要有物品的描述(比如书:体裁、主题、作者)
- 无需大规模用户,有物品属性即可推荐
基于知识推荐:适合无法依赖用户行为记录,能获取物品专业特征的方法
- 消费类电子产品:大量的单次购买者,无法依赖购买记录,能够获取专业性的优质特征
- 因果知识(比如数码相机:分辨率、重量、价格)
- 明确的约束条件描述场景、系统询问用户特征的相对重要性
混合推荐
2. 协同过滤推荐
基于用户的最近邻推荐(user based,user cf)
- 对当前用户没见过的每个产品p,利用其近邻对p的评分计算预测值
- 用户相似度计算:Pearson相关系数,考虑到了用户评分标准不相同的事实
- 打压热门物品推荐:逆用户频率(iuf)
- 样本扩展:强调接近+1和-1的值(比如*2.5)
- kNN:k=20~50
基于物品的最近邻推荐(item based,item cf)
* Amazon用其推荐书、CD
大型电商网站:百万计用户,难以做到实时计算user cf的预测值
- 简单地找到user对相似物品的评分
- 余弦相似度方法比Pearson相关系数表现更好
- 近邻数量受限于当前用户评过分的物品个数
- 物品的相似度更稳定
获取评分
- 收集显式评分:来自种子用户
- 数据稀疏、冷启动:利用用户画像(性别、年龄、教育程度、兴趣)
- 看做图分析问题:考虑长度为3的路径,缺点是计算代价高
- 给缺少评分的物品赋给缺省值
基于模型和预处理的方法
- 矩阵分解:MF、SVD、pLSA
- 关联规则挖掘:Apriori(高支持度和可信度的规则),离线计算,热门电影领域效果好
- 预测问题看作分类:NB、Laplace平滑
- 其他:聚类(k-means)、BN
近期实际的方法
- 简单的方法:SlopeOne,计算用户在不同物品评分上的偏移量,结合当前用户评分预测
- 更多数据支持的偏移量更大权重
- 推荐方法与已有方法效果相当
Google新闻个性化推荐引擎
- 基于活跃用户的点击历史
- 更大社区历史信息的协同
- 实时用户反馈
- pLSI和MinHash,使用MapReduce计算,最后线性组合
- 候选集合:语言偏好、新闻时效性、用户个性化设置、同类别其他用户的点击历史(热度)
- 个性化方法明显占优(38%),除了极度热门新闻
小结
- 没有“银弹”方法
3. 基于内容的推荐
- eg:书的种类、电影的演员表、文章关键词
- 候选物品和用户过去喜欢的物品的相似度(比如书的体裁、文章关键词的Jaccard系数)
- 向量空间模型、tf-idf
- 删除停用词、精简关键词数量、用词典删除无关领域的词、使用短语、关键词上下文包含否定修饰
- 先使用短期模型中的近邻、否则使用长期模型
- 相关性反馈:正反馈更有价值
- 用idf衡量的前10~20个词
- 多项式模型做文本分类比伯努利模型明显好
- 决策树学习器(ID3、C4.5、RF)在特征较少时效果更好
- 特征选择:卡方检验(基于互信息,越高越相关)、Fisher判别
- 最重要因素是训练集规模
- Bayes和Rocchio总是表现好、NB预测更快
- 局限:缺少新颖性,商业领域几乎没有仅基于内容的推荐系统,一般混合CF
4. 基于知识的推荐
- 识别评价范式:比如兆级像素、光学变焦、液晶显示屏尺寸、录像功能、价格
- 知识获取:深入的领域知识、推荐技术
5. 混合推荐
加权、交叉、切换
6-7. 推荐系统的解释、评估
- 使用离线试验评估
- 响应时间、可扩展性、峰值负载、可靠性
- 平均绝对误差MAE、准确率召回率PR、F1、ROC
8. 案例分析:移动互联网个性化游戏推荐
好的经验:
- 热销物品放在推荐列表中
- CF有助于销售转化率、多处展示位效果好
- 个性化方法更好(甚至是SlopeOne方法)
- 混合不同推荐方法有助更多浏览和销售
- 购买完之后显示热销效果差
- 用户购买完后首先想看的是免费游戏
- 无论是否个性化,图片转化率显著高于文本链接
- 个性化相对非个性化策略优势高于更丰富的展示样式
- 用户喜欢新的物品或和历史行为相似的物品
- 推荐列表个性化技术显然超过人工推荐
整体效果
- 浏览量:个性化算法胜过非个性化(热销)
- SlopeOne和简单的基于用户评分排序引起最多用户关注,进而增加购买和下载
- 用户倾向于购买与其偏好相似的物品
小结
- 用户没有强烈预期时:推荐没见过的类别,CF方法较好
- 用户有一定预期时:倾向于与偏好相似的物品
- 售后情形:不倾向与当前购买相似的物品
- 使用移动设备提交评分更慎重、参与积极性低
- 新物品严格按时间排列更好
- 基于内容和物品的方法明显更好
9. 针对协同推荐系统的攻击
反作弊
10. 在线消费决策
心理学:
- 环境效应:额外低质量物品加入展示会改变选择概率、增加选择信心和购买意愿
- 首位/新近效应:位于列表首尾的位置比中部更容易被记住(比如网页搜索)
- 框架效应:如果用户不是特别在行,展示方式会影响用户关注点和决策;“损失厌恶”心理
- 尽快决策:人们更喜欢预测并尽可能少做信息搜索;进度提示
- 从众:展示用户评分很容易影响用户信念
- 反馈:若反馈而改善推荐效果会更频繁反馈
- 信任:交易安全性、保护隐私、平台信誉、推荐效果(非常依赖UI:解释、产品对比,算法:结果符合偏好),体现在用户留存
- 文化差异:西方的个人主义和东方的集体主义
11. 推荐系统和下一代互联网
考虑社交关系
重视深度用户的评论
使用用户评论和标签
12. 普适环境中的推荐
上下文感知推荐(区分用户短期兴趣)
- 你在哪里、你和谁在一起、附近有那些资源
- 物理上下文:位置、时间
- 环境上下文:天气、光线、声音强度
- 信息上下文:股票报价、体育比分
- 个人上下文:健康、心情、计划、活动
- 社交上下文:团队活动、社交活动、和谁在一间屋子里
- 应用上下文:电子邮件、访问站点
- 系统上下文:网络连通状况、打印机状态
应用领域
- 选择餐馆:个人偏好和就近程度加权
- 旅游:天气(时间、季节)、新闻、交通、导航(距离)、安全;大部分用户希望自主决定考虑哪些因素