《推荐系统》阅读笔记

zoukankan html css js c++ java

《推荐系统》阅读笔记

蒋凡翻译的这本：https://book.douban.com/subject/24746415/

1. 引言

协同过滤：适合有大量用户的行为信息库的情况

- 如果用户在过去有相同的偏好（浏览、买过相同的书），那么他们在未来也会有相似的偏好

基于内容推荐：适合物品属性易获取、用户量较少的情况（用户偏好也能获取）

- 需要有物品的描述（比如书：体裁、主题、作者）

- 无需大规模用户，有物品属性即可推荐

基于知识推荐：适合无法依赖用户行为记录，能获取物品专业特征的方法

- 消费类电子产品：大量的单次购买者，无法依赖购买记录，能够获取专业性的优质特征

- 因果知识（比如数码相机：分辨率、重量、价格）

- 明确的约束条件描述场景、系统询问用户特征的相对重要性

混合推荐

2. 协同过滤推荐

基于用户的最近邻推荐（user based，user cf）

- 对当前用户没见过的每个产品p，利用其近邻对p的评分计算预测值

- 用户相似度计算：Pearson相关系数，考虑到了用户评分标准不相同的事实

- 打压热门物品推荐：逆用户频率（iuf）

- 样本扩展：强调接近+1和-1的值（比如*2.5）

- kNN：k=20~50

基于物品的最近邻推荐（item based，item cf）

* Amazon用其推荐书、CD

大型电商网站：百万计用户，难以做到实时计算user cf的预测值

- 简单地找到user对相似物品的评分

- 余弦相似度方法比Pearson相关系数表现更好

- 近邻数量受限于当前用户评过分的物品个数

- 物品的相似度更稳定

获取评分

- 收集显式评分：来自种子用户

- 数据稀疏、冷启动：利用用户画像（性别、年龄、教育程度、兴趣）

- 看做图分析问题：考虑长度为3的路径，缺点是计算代价高

- 给缺少评分的物品赋给缺省值

基于模型和预处理的方法

- 矩阵分解：MF、SVD、pLSA

- 关联规则挖掘：Apriori（高支持度和可信度的规则），离线计算，热门电影领域效果好

- 预测问题看作分类：NB、Laplace平滑

- 其他：聚类（k-means）、BN

近期实际的方法

- 简单的方法：SlopeOne，计算用户在不同物品评分上的偏移量，结合当前用户评分预测

- 更多数据支持的偏移量更大权重

- 推荐方法与已有方法效果相当

Google新闻个性化推荐引擎

- 基于活跃用户的点击历史

- 更大社区历史信息的协同

- 实时用户反馈

- pLSI和MinHash，使用MapReduce计算，最后线性组合

- 候选集合：语言偏好、新闻时效性、用户个性化设置、同类别其他用户的点击历史（热度）

- 个性化方法明显占优（38%），除了极度热门新闻

小结

- 没有“银弹”方法

3. 基于内容的推荐

- eg：书的种类、电影的演员表、文章关键词

- 候选物品和用户过去喜欢的物品的相似度（比如书的体裁、文章关键词的Jaccard系数）

- 向量空间模型、tf-idf

- 删除停用词、精简关键词数量、用词典删除无关领域的词、使用短语、关键词上下文包含否定修饰

- 先使用短期模型中的近邻、否则使用长期模型

- 相关性反馈：正反馈更有价值

- 用idf衡量的前10~20个词

- 多项式模型做文本分类比伯努利模型明显好

- 决策树学习器（ID3、C4.5、RF）在特征较少时效果更好

- 特征选择：卡方检验（基于互信息，越高越相关）、Fisher判别

- 最重要因素是训练集规模

- Bayes和Rocchio总是表现好、NB预测更快

- 局限：缺少新颖性，商业领域几乎没有仅基于内容的推荐系统，一般混合CF

4. 基于知识的推荐

- 识别评价范式：比如兆级像素、光学变焦、液晶显示屏尺寸、录像功能、价格

- 知识获取：深入的领域知识、推荐技术

5. 混合推荐

加权、交叉、切换

6-7. 推荐系统的解释、评估

- 使用离线试验评估

- 响应时间、可扩展性、峰值负载、可靠性

- 平均绝对误差MAE、准确率召回率PR、F1、ROC

8. 案例分析：移动互联网个性化游戏推荐

好的经验：

- 热销物品放在推荐列表中

- CF有助于销售转化率、多处展示位效果好

- 个性化方法更好（甚至是SlopeOne方法）

- 混合不同推荐方法有助更多浏览和销售

- 购买完之后显示热销效果差

- 用户购买完后首先想看的是免费游戏

- 无论是否个性化，图片转化率显著高于文本链接

- 个性化相对非个性化策略优势高于更丰富的展示样式

- 用户喜欢新的物品或和历史行为相似的物品

- 推荐列表个性化技术显然超过人工推荐

整体效果

- 浏览量：个性化算法胜过非个性化（热销）

- SlopeOne和简单的基于用户评分排序引起最多用户关注，进而增加购买和下载

- 用户倾向于购买与其偏好相似的物品

小结

- 用户没有强烈预期时：推荐没见过的类别，CF方法较好

- 用户有一定预期时：倾向于与偏好相似的物品

- 售后情形：不倾向与当前购买相似的物品

- 使用移动设备提交评分更慎重、参与积极性低

- 新物品严格按时间排列更好

- 基于内容和物品的方法明显更好

9. 针对协同推荐系统的攻击

反作弊

10. 在线消费决策

心理学：

- 环境效应：额外低质量物品加入展示会改变选择概率、增加选择信心和购买意愿

- 首位/新近效应：位于列表首尾的位置比中部更容易被记住（比如网页搜索）

- 框架效应：如果用户不是特别在行，展示方式会影响用户关注点和决策；“损失厌恶”心理

- 尽快决策：人们更喜欢预测并尽可能少做信息搜索；进度提示

- 从众：展示用户评分很容易影响用户信念

- 反馈：若反馈而改善推荐效果会更频繁反馈

- 信任：交易安全性、保护隐私、平台信誉、推荐效果（非常依赖UI：解释、产品对比，算法：结果符合偏好），体现在用户留存

- 文化差异：西方的个人主义和东方的集体主义

11. 推荐系统和下一代互联网

考虑社交关系

重视深度用户的评论

使用用户评论和标签

12. 普适环境中的推荐

上下文感知推荐（区分用户短期兴趣）

- 你在哪里、你和谁在一起、附近有那些资源

- 物理上下文：位置、时间

- 环境上下文：天气、光线、声音强度

- 信息上下文：股票报价、体育比分

- 个人上下文：健康、心情、计划、活动

- 社交上下文：团队活动、社交活动、和谁在一间屋子里

- 应用上下文：电子邮件、访问站点

- 系统上下文：网络连通状况、打印机状态

应用领域

- 选择餐馆：个人偏好和就近程度加权

- 旅游：天气（时间、季节）、新闻、交通、导航（距离）、安全；大部分用户希望自主决定考虑哪些因素

查看全文

相关阅读:
vc文件读写，用fstream和CStdioFile
使用批处理启用或禁用端口
 什么是qt，QT Creator, QT SDK, QT Designer
C#结构体特性
 VC++对话框中添加状态栏的方法
 [转]字符编码，ansi, unicode，utf8, utf16
TRANSACTIONAL TEXT INDEX全文索引可能消耗大量PGA内存
 解决Oracle中Split Partition缓慢的问题
 ORA00600
计算Oracle数据库软件许可证License的使用量

原文地址：https://www.cnblogs.com/yaoyaohust/p/11672472.html