zoukankan      html  css  js  c++  java
  • youtube DNN 模型要点速记

    1、为什么Ranking Model采用了weighted logistic regression作为输出层?在模型serving过程中又为何没有采用sigmoid函数预测正样本的probability,而是使用 [公式] 这一指数形式预测用户观看时长?

    再简要总结一下YouTube Ranking Model的Serving过程要点。

    1. [公式] 这一指数形式计算的是Weighted LR的Odds;
    2. Weighted LR使用用户观看时长作为权重,使得对应的Odds表示的就是用户观看时长的期望;
    3. 因此,Model Serving过程中[公式] 计算的正是观看时长的期望。

    2、如果是排序使用的话,odds和sigmoid单调性一致;如果使用时长后续有其他处理,和直接回归或多分类有多大差别,为什么感觉有些迂回?

     a:回归有一个问题在于值域是负无穷到正无穷,在视频推荐这样一个大量观看时间为0的数据场景,为了优化MSE,很可能会把观看时间预测为负值,而在其他数据场景下又可能预测为超大正值。逻辑回归在这方面的优势在于值域在0到1,对于数据兼容性比较好,尤其对于推荐这种rare event的场景,相比回归会更加适合。而且odds的值域也是非负的,符合watch time的物理意义。

    q:那如果把观看时间quantization成k个bucket然后做多分类 是不是也可以 感觉比weightedLR更简单train起来 当然会损失点效果可能

    a:多分类输出粒度不够细,不适合用来做排序。此外多分类的参数数量也比二分类多很多,同样的样本量下训练效果可能不如二分类效果好。

    q:serving的时候,sigmoid和和指数函数都是单调递增的。如果取固定的top K个item做曝光,那这两种方式结果完全是一样的,没理解为什么还要用指数函数。

    参考:https://zhuanlan.zhihu.com/p/61827629

  • 相关阅读:
    最小费用最大流
    bzoj1070[SCOI2007]修车
    bzoj1877[SDOI2009]晨跑
    bzoj2879[NOI2012]美食节
    bzoj1834[ZJOI2010]网络扩容
    Tic-Tac-Toe-(暴力模拟)
    javascript慕课入门
    hdu2586-How far away ?-(最近公共祖先-Tarjan离线算法)
    CSS初识盒子
    CF1047C-Enlarge GCD-(欧拉筛+gcd+唯一分解定理)
  • 原文地址:https://www.cnblogs.com/zle1992/p/14999946.html
Copyright © 2011-2022 走看看