论文研读
论文名称:印莹,赵宇海,张斌,王国仁.基于多开发者社区的用户推荐算法.
- 研究对象
Stack Overflow 和 Github 的相关数据 - 研究动机
- 融合开发者社区的用户信息,通过分析用户与用户之间的互动行为,建立跨社区的开发者网络,更新用户标签.进一步地,通过使用 Taxonomy 来扩充问题的查询关键词范围,在此基础上,协同用户矩阵进行更加准确的推荐,并增大了推荐时有效用户的范围。本方法从文档集中运用
- 文献综述
-
研究方案设计
- 问题定义及研究思路
- 相关定义,定义识别用户应该用到的文本相似度计算,以及计算用户与用户关系所应用到的线性归一化定义
- 问题描述,利用用户与用户和用户与标签的关系,在重启随机行走中,通过矩阵间的运算得到更为准确的可以代表用户与标签关系的 n×m 阶用户-标签矩阵
- 研究思路,实现基于重启随机游走的用户标签更新算法与基于 Taxonomy 的用户推荐算法用来提高用户标签的准确度和问题推荐时的准确度
-
基于多开发者社区的用户推荐算法
- 跨社区相同用户识别,通过统计不同社区中用户参与问题回答行为,得到用户在回答问题种类上的偏好,并以用户与标签的关系表示
- 基于重启随机游走的用户更新算法,设置不同的重启率,获得多种情况下使用重启游走更新后的用户-标签关系.
-
- 基于Taxonomy的用户推荐算法,通过 Taxonomy 的扩展,有效地扩大问题标签的命中范围与权值
- 实验与分析
- 实验数据集,本文收集的数据包含截止到 2017 年 10 月的 Stack Overflow 以及 Github两个社区中的共计 117个标签下约 140万有效主题贴.对所有主题贴统计参与其中的用户,并排除无法作为推荐参考的游客账号以及类似 google 的大型公共账号,累计获得两个开发者社区中的约 40 万有效注册用户的 id 及其在有效问题下的活动信息
- 用户识别实验,基于用户标签偏好的识别
- 用户标签更新实验,过控调整重启率(restart)以获得更加准确的用户对于标签数量的偏好以及更加准确的用户对于标签偏好的权重
- 用户推荐实验,计算所有用户的价值均相等的情况,来分析本文抽取一定数量下用户的准确度;以及根据用户排名,用户价值递减的分析推荐用户的排名的准确度
- 使用数据集
本文收集的数据包含截止到 2017 年 10 月的 Stack Overflow 以及 Github两个社区中的共计 117个标签下约 140万有效主题贴.对所有主题贴统计参与其中的用户,并排除无法作为推荐参考的游客账号以及类似 google 的大型公共账号,累计获得两个开发者社区中的约 40 万有效注册用户的 id 及其在有效问题下的活动信息.
- 研究结论
- 本文通过 Taxonomy 的语义树,对提取的关键词集进行拓展,利用拓展后的问题标签及其权重协同更新后的用户标签矩阵进行推荐.实验表明,本文的方法对于推荐用户的数量提升明显,并且准确度也有较高的提升.
- 学习心得
本文抓取了大量的实验数据,可见所费的大量心血。理解了重启随机游走的用户标签更新算法与基于 Taxonomy 的用户推荐算法