zoukankan      html  css  js  c++  java
  • 【论文阅读-REC】<<Deep Neural Networks for Youtube Recommendations>>阅读

    1、介绍:

    YouTube推荐的挑战:

    scale:很多算法在小数据有用,在youtube无用;

    freshness:需要对对新上传视频足够敏感;

    noisy:没有真实的用户反馈;缺少结构化的数据

    2、skip

    3、候选生成:

    之前的模型是基于矩阵分解;YouTube的DL模型的前几层就是使用神经网络模拟这种分解;这可以看成是分解技术的非线性泛化

    3.1、把推荐看做多分类:

    NCE和hs,文字指出hs没有得到nce的效果;YouTube认为,遍历树中不相关节点,使效果变差。

    在线预估的时候,并不是对所有video打分;而是用近邻检索方案

    3.2、架构:

    用户观看行为作为WordVec;用户浏览作为WordVec;以此作为输入,后面接几个全连接和Relu。

    ps:用户观看多个video,每个video有一个vec;以avg作为user vec效果最好。

    3.3、各种信号:

    1)使用人口统计学特征作为先验,使得对新用户推荐合理;

    2)用户对于新的视频感兴趣,即使相关性低;

        但是系统习惯于推荐过去的视频,因为训练是基于历史数据;

        视频的观看时长是不稳当的,但是我们的模型偏向于拟合视频的平均观看时长;

        因此在训练集中,考虑video的上传时间特征对模型很重要。

    3.4、样本和上下文选择:

    1)以所有的watch为样本,而非推荐结果中的watch为样本;

    2)每个用户选择一样多的样本,防止某些用户居于主导地位

    3)很多CF潜在地把用户的行为pair看做对称的,而YouTube的video则不是,所以前后不对称;

    3.5、实验

    特征越多,层次越深越好

    4、排序

    排序的目的:

    1)使用曝光校准推荐结果,因为推荐依据相关性,但是点击可能有更多因素;

    2)融合不同推荐源的结果

    预估目标是观看时间,方法是LR;若预估点击率,那么会鼓励低质量的欺骗视频

    4.1、特征表示

    有数值特征,有分类特征;

    分类特征又可以分为单值分类特征,多值分类特征;

    连续特征泛化能力好,因为它本身是item的泛化;

    候选集来源和得分也重要;

    展现频次特征可以引入流失信息,也很重要(样本被展现不被点击,就不再展现,频次表现了物品的质量);

    分类特征用词向量;

    NN对于特征量纲敏感,连续特征要归一化(决策树不敏感);文中使用累积概率密度归一化;

    对归一化值使用幂函数,可以提升离线表现;

    4.2、对观看时间建模

    目标函数是WeightedLR;负样本使用Unit weight.

    遗留问题:

    1、基于重要性权重矫正样本,是什么技术?

    2、近邻检索方案是如何实现的?

    3、WeightedLR如何使用

  • 相关阅读:
    VisualSVN-Server windows 版安装时报错 "Service 'VisualSVN Server' failed to start. Please check VisualSVN Server log in Event Viewer for more details."
    Pytest 单元测试框架之初始化和清除环境
    Pytest 单元测试框架入门
    Python(email 邮件收发)
    Python(minidom 模块)
    Python(csv 模块)
    禅道简介
    2020年最好的WooCommerce主题
    Shopify网上开店教程(2020版)
    WooCommerce VS Magento 2020:哪个跨境电商自建站软件更好?
  • 原文地址:https://www.cnblogs.com/ai1024/p/6819324.html
Copyright © 2011-2022 走看看