zoukankan      html  css  js  c++  java
  • 《推荐系统》阅读笔记

    蒋凡翻译的这本:https://book.douban.com/subject/24746415/

    1. 引言

    协同过滤:适合有大量用户的行为信息库的情况

    - 如果用户在过去有相同的偏好(浏览、买过相同的书),那么他们在未来也会有相似的偏好

    基于内容推荐:适合物品属性易获取、用户量较少的情况(用户偏好也能获取)

    - 需要有物品的描述(比如书:体裁、主题、作者)

    - 无需大规模用户,有物品属性即可推荐

    基于知识推荐:适合无法依赖用户行为记录,能获取物品专业特征的方法

    - 消费类电子产品:大量的单次购买者,无法依赖购买记录,能够获取专业性的优质特征

    - 因果知识(比如数码相机:分辨率、重量、价格)

    - 明确的约束条件描述场景、系统询问用户特征的相对重要性

    混合推荐

    2. 协同过滤推荐

    基于用户的最近邻推荐(user based,user cf)

    - 对当前用户没见过的每个产品p,利用其近邻对p的评分计算预测值

    - 用户相似度计算:Pearson相关系数,考虑到了用户评分标准不相同的事实

    - 打压热门物品推荐:逆用户频率(iuf)

    - 样本扩展:强调接近+1和-1的值(比如*2.5)

    - kNN:k=20~50

    基于物品的最近邻推荐(item based,item cf)

    * Amazon用其推荐书、CD

    大型电商网站:百万计用户,难以做到实时计算user cf的预测值

    - 简单地找到user对相似物品的评分

    - 余弦相似度方法比Pearson相关系数表现更好

    - 近邻数量受限于当前用户评过分的物品个数

    - 物品的相似度更稳定

    获取评分

    - 收集显式评分:来自种子用户

    - 数据稀疏、冷启动:利用用户画像(性别、年龄、教育程度、兴趣)

    - 看做图分析问题:考虑长度为3的路径,缺点是计算代价高

    - 给缺少评分的物品赋给缺省值

    基于模型和预处理的方法

    - 矩阵分解:MF、SVD、pLSA

    - 关联规则挖掘:Apriori(高支持度和可信度的规则),离线计算,热门电影领域效果好

    - 预测问题看作分类:NB、Laplace平滑

    - 其他:聚类(k-means)、BN

    近期实际的方法

    - 简单的方法:SlopeOne,计算用户在不同物品评分上的偏移量,结合当前用户评分预测

    - 更多数据支持的偏移量更大权重

    - 推荐方法与已有方法效果相当

    Google新闻个性化推荐引擎

    - 基于活跃用户的点击历史

    - 更大社区历史信息的协同

    - 实时用户反馈

    - pLSI和MinHash,使用MapReduce计算,最后线性组合

    - 候选集合:语言偏好、新闻时效性、用户个性化设置、同类别其他用户的点击历史(热度)

    - 个性化方法明显占优(38%),除了极度热门新闻

    小结

    - 没有“银弹”方法

    3. 基于内容的推荐

    - eg:书的种类、电影的演员表、文章关键词

    - 候选物品和用户过去喜欢的物品的相似度(比如书的体裁、文章关键词的Jaccard系数)

    - 向量空间模型、tf-idf

    - 删除停用词、精简关键词数量、用词典删除无关领域的词、使用短语、关键词上下文包含否定修饰

    - 先使用短期模型中的近邻、否则使用长期模型

    - 相关性反馈:正反馈更有价值

    - 用idf衡量的前10~20个词

    - 多项式模型做文本分类比伯努利模型明显好

    - 决策树学习器(ID3、C4.5、RF)在特征较少时效果更好

    - 特征选择:卡方检验(基于互信息,越高越相关)、Fisher判别

    - 最重要因素是训练集规模

    - Bayes和Rocchio总是表现好、NB预测更快

    - 局限:缺少新颖性,商业领域几乎没有仅基于内容的推荐系统,一般混合CF

    4. 基于知识的推荐

    - 识别评价范式:比如兆级像素、光学变焦、液晶显示屏尺寸、录像功能、价格

    - 知识获取:深入的领域知识、推荐技术

    5. 混合推荐

    加权、交叉、切换

    6-7. 推荐系统的解释、评估

    - 使用离线试验评估

    - 响应时间、可扩展性、峰值负载、可靠性

    - 平均绝对误差MAE、准确率召回率PR、F1、ROC

    8. 案例分析:移动互联网个性化游戏推荐

    好的经验:

    - 热销物品放在推荐列表中

    - CF有助于销售转化率、多处展示位效果好

    - 个性化方法更好(甚至是SlopeOne方法)

    - 混合不同推荐方法有助更多浏览和销售

    - 购买完之后显示热销效果差

    - 用户购买完后首先想看的是免费游戏

    - 无论是否个性化,图片转化率显著高于文本链接

    - 个性化相对非个性化策略优势高于更丰富的展示样式

    - 用户喜欢新的物品或和历史行为相似的物品

    - 推荐列表个性化技术显然超过人工推荐

    整体效果

    - 浏览量:个性化算法胜过非个性化(热销)

    - SlopeOne和简单的基于用户评分排序引起最多用户关注,进而增加购买和下载

    - 用户倾向于购买与其偏好相似的物品

    小结

    - 用户没有强烈预期时:推荐没见过的类别,CF方法较好

    - 用户有一定预期时:倾向于与偏好相似的物品

    - 售后情形:不倾向与当前购买相似的物品

    - 使用移动设备提交评分更慎重、参与积极性低

    - 新物品严格按时间排列更好

    - 基于内容和物品的方法明显更好

    9. 针对协同推荐系统的攻击

    反作弊

    10. 在线消费决策

    心理学:

    - 环境效应:额外低质量物品加入展示会改变选择概率、增加选择信心和购买意愿

    - 首位/新近效应:位于列表首尾的位置比中部更容易被记住(比如网页搜索)

    - 框架效应:如果用户不是特别在行,展示方式会影响用户关注点和决策;“损失厌恶”心理

    - 尽快决策:人们更喜欢预测并尽可能少做信息搜索;进度提示

    - 从众:展示用户评分很容易影响用户信念

    - 反馈:若反馈而改善推荐效果会更频繁反馈

    - 信任:交易安全性、保护隐私、平台信誉、推荐效果(非常依赖UI:解释、产品对比,算法:结果符合偏好),体现在用户留存

    - 文化差异:西方的个人主义和东方的集体主义

    11. 推荐系统和下一代互联网

    考虑社交关系

    重视深度用户的评论

    使用用户评论和标签

    12. 普适环境中的推荐

    上下文感知推荐(区分用户短期兴趣)

    - 你在哪里、你和谁在一起、附近有那些资源

    - 物理上下文:位置、时间

    - 环境上下文:天气、光线、声音强度

    - 信息上下文:股票报价、体育比分

    - 个人上下文:健康、心情、计划、活动

    - 社交上下文:团队活动、社交活动、和谁在一间屋子里

    - 应用上下文:电子邮件、访问站点

    - 系统上下文:网络连通状况、打印机状态

    应用领域

    - 选择餐馆:个人偏好和就近程度加权

    - 旅游:天气(时间、季节)、新闻、交通、导航(距离)、安全;大部分用户希望自主决定考虑哪些因素

  • 相关阅读:
    js面试题
    Linux设备驱动程序 之 并发及其管理
    Linux设备驱动程序 之 read和write
    Linux设备驱动程序 之 open和release
    Linux设备驱动程序 之 字符设备的注册
    Linux设备驱动程序 之 重要数据结构
    Linux设备驱动程序 之 主次设备号
    Linux设备驱动程序 之 模块参数
    Linux设备驱动程序 之 内核符号表
    Linux设备驱动程序 之 装载和卸载模块
  • 原文地址:https://www.cnblogs.com/yaoyaohust/p/11672472.html
Copyright © 2011-2022 走看看