zoukankan      html  css  js  c++  java
  • SR方式挖掘豆瓣热点

    郑昀@玩聚SR 20090430

    无意中看到M Jia在《豆瓣好友热点 v0.2.3》中提及:

    以前很喜欢看Techmeme/Digg这样的聚合/社区工具,现在超级喜欢Hacker News和Reddit Programming,简洁又超级有活力(虽然我不太能参乎进去,呵呵),如果能够使用玩聚SR的方式来作豆瓣上的“物”并加上豆瓣原来就有的社区,可以非常简洁并有活力,我会非常喜欢,不过我代表不了广大用户。”

    顺着他的这个思路,那么如何一步一步做呢:

  • case:豆瓣热点
    • 步骤
      • 找到豆瓣上的核心用户,给予一定权重
      • 根据douban-python-API获取这些核心用户的所有朋友
      • 判断这些用户的最新活动时间,如果最近一星期内有更新,则加入到监测
      • 为之分门别类建立Group,以便按照兴趣打包订阅
      • 获取所有监测用户的广播,这是公开的
      • 汇总所有监测用户的推荐,一个推荐或提及就代表投了一票
        • site
        • recommendation
          • 看过
          • 想看
      • 设定一个投票上榜的最低阈值
      • 参考玩聚SR 的SRRank公式(SRRank=log10Z+ts/45000),设定自己排序规则
      • 为每一个Group都生成对应的热点榜单
      • 如果热点是电影或音乐,到VeryCD搜索获取对应的下载项
    • mashup
    • 缺点
      • 豆瓣的数据很零散,长尾太长,难以发现与时俱进的、有效的What's Hot
      • 顶多也就是被人回应比较多的Item
      • 甚至未见得最终挖掘效果比得过豆瓣电影首页的效果
      • 多数人都是想读想看看过之类的信息,用到“推荐”功能的不多
      • 豆瓣API有访问频次限制,小心别被block
查看全文
  • 相关阅读:
    linux学习8 运维基本功-Linux获取命令使用帮助详解
    持续集成学习11 jenkins和gitlab集成自动触发
    持续集成学习10 Pipline初探
    持续集成学习9 jenkins执行脚本
    持续集成学习8 jenkins权限控制
    持续集成学习7 jenkins自动化代码构建
    持续集成学习6 jenkins自动化代码构建
    持续集成学习5 jenkins自动化测试与构建
    持续集成学习4 jenkins常见功能
    【Hadoop离线基础总结】MapReduce增强(下)
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/1448597.html
  • Copyright © 2011-2022 走看看