zoukankan      html  css  js  c++  java
  • 中国站长站王小东专访郑昀:探索语义聚合为你呈现精彩信息

    2009-06-10 12:29:44 来源:中国站长站

    感谢主持人王小东!

    我摘录了一些问答,全文请到 中国站长站 看。

    中国站长站《站长访谈》主持人王小东:欢迎郑昀做客中国站长站!首先向郑昀表达一个敬意,在互联网的“好文章”后面,常常可以看到你的勤奋身影。

    郑昀:我们一直关注如何找到互联网上最优秀的内容和人,基于各种各样的数据和方法,把它们有效整合,并力图完美呈现。

    王小东:对,你也曾经说过,玩聚网的内容取舍很大程度上源自你的审美趣味,很多内容特别是早期的玩聚网,多是你平时阅读的RSS订阅列表。那么,呈现玩聚网现在的样子,相信不仅仅是列表的呈现吧。可否详细介绍一下你所说的语义技术作为二层过滤,达到一个有价值主题呈现的这一图景?甄选好文章,主要有哪些途径呢?

    郑昀:发现互联网最优秀最新鲜的文章或热点,我们探索的大致有两种测量维度:

    一,找到用户或站方信赖的信源。比如,天涯社区的一些板块,TwitterFriendFeed,某些博客,等等,相对值得信赖,它们上面的信息相对好。

    二,找到用户或站方信赖的人。

    具体的测量方法,有三种途径:

    一,监测信赖的信源。如果足够多的资讯都在说同一件事,那么这件事可能是值得看的热点;如果足够多的资讯都在重复传播同一篇文章,那么这篇文章可能值得阅读。

    二,监测信赖的人。如果足够多的人都推荐、分享和转发了同一个资讯,那么这个资讯就可能是优质的、值得被你信赖的。

    三,把上面两点混合起来用。

    其中,检测不同文章是讲同一件事,以及检测不同文章其实是一篇文章,这都需要语义计算。

    王小东:有另外一个类似的网站——FeedzShare。FeedzShare 是统计Google Reader和鲜果的读者在RSS阅读器里面分享的内容, 然后把用户分享最多的文章呈现在首页上。玩聚网和FeedzShare有哪些区别吗?我看到内容重合度很高的。

    郑昀:我曾经说过,玩聚SR = (RssMeme + TweetMeme + Popacular + …)+ 语义计算。FeedzShareRssMeme 的模式在中国的第一个实现者。

    对互联网科技社群来说,大部分分享和阅读行为都发生在RSS阅读器中,但也有相当比例的推荐行为第一时间发生在 Twitter 为首的微博客中。而且微博客的热点追踪能力更强更快,所以在中国要想做好实时的优质内容发现,必须要加强对微博客领域的监控。

    微博客的热门链接追踪虽好,但在中国也有缺点,就是容易剑走偏锋,过于新特奇,缺少让人沉稳耐读的资讯。这就需要 RssMeme 的模式来补充。

    另外,站方必须考虑的一点就是,流行的社会化媒体,都往往存在被封锁的风险,所以也必须考虑多种信源聚合,而不是把自己绑在Twitter或者Google Reader战车上,避免因信源被封而无米下锅,比如近期我们整合进来饭否的统计数据。

    至于不同聚合服务内容有一定重合,我认为在现阶段中国这是必然的。因为活跃的中国互联网用户其实就这么多,尤其是社会化媒体,基本都是科技社群这批人作为主力军,每天产生出来的好内容也就那么多,那么作为RSS分享聚合的FeedzShare鲜果热文,与多种信源聚合的玩聚SR,内容有一定重合,这是必然的。这就像网易新闻和新浪新闻多数是重合的一样。对于此,我的建议是,保持对一个聚合服务的关注即可。你犯不上新浪新闻和网易新闻全都看。

    -=-=-=-=-=-=-

    王小东:既然一时间难以产生自己的用户,那么如何凝聚一群围绕在玩聚网周围的用户呢?我是说用户关注、平台价值方面,你总得有自己扎扎实实的、很基础的东西吧。按照传统的模式,没有“自有数据的用户群体”,这看起来很奇怪。

    郑昀:其实没有自己平台产生的内容数据也不算太大问题,至少在网站成长期。主要的问题是,如何让使用玩聚网的用户转为注册用户。我们的考虑是,你如果单纯提供一个注册用户功能,但又无法提供给注册用户更有价值更独特的功能,那么就白花时间开发了,也浪费用户的感情,以后的产品如何让用户产生注册的动力呢。

    所以,一旦我们推出用户体系,肯定是要做个性化阅读和推送的,不是简单的聚合。然后慢慢地让大部分阅读、分享、评论和传播行为都发生在网站内。听上去有点儿像 FriendFeed 的从外部数据聚合到内部产生数据的道路,但我认为我们要做出自己的特色。

    -=-=-=-=-=-=-=-

    王小东:有了自己的平台,就有了遐想的空间,当前流行的twitter就是如此。玩聚网由于是“二次推荐”,是基于twitter、Google Reader这些已经存在的平台之上的,感觉没有自己底层的东西。玩聚网如何打造自己的平台,拥有自己的用户?持久力在哪里?盈利模式呢,想象力如何转化为创造力?

    郑昀:慢慢来吧,先生存下去再说。

    我们一再试验不同的测量维度,一再 mashup (糅合)不同的社会化媒体和数据,一再地尝试用各种自然语言处理手段,我相信这些经历会在以后有所体现,会得到回报。

    我希望能把这些经验灌注到一个新平台中,最好做成一个独特的社区。这个方向的盈利模式在中国只有两条路:个性化推送和口碑营销。现在还很难清晰地描绘出具体的演变路径,只能一步一步走了。

     

    来源:中国站长站

  • 相关阅读:
    算法探究-2.retinaNet(Focal Loss)
    C++基础-枚举体 enum class
    C++基础-TypeTraits(进行类型的属性判断) 1.is_lvalue_reference(左值引用判断) 2.is_integral(整形判断) 3.is_class(基本类型判段) 4.is_same(判断类型一致) 5.enable_if(条件判断)
    C++基础-auto(自动分配属性)和decltype(指定分配属性)
    C++基础-正则实战(日期拆分regex_match ,符号拆分sregex_token_iterator, 邮箱的查找 regex_search)
    C++基础-正则表达式 regex_match(匹配) regex_search(查找) regex_replace(替换)
    Shell 入门(三):sed,awk,grep
    Shell 入门(二):数组与函数
    Shell 入门(一):变量和流程控制
    ArcSDE 版本差异提取
  • 原文地址:https://www.cnblogs.com/zhengyun_ustc/p/1500423.html
Copyright © 2011-2022 走看看