一、全链路精准预估技术:
传统的多阶段建模在实际中存在SSB和DS问题:
多阶段模型的样本漏斗:
召回->粗排->精排->展现->点击->转化->复购
-
样本选择偏差 (Sample Selection Bias, SSB) 问题。后一阶段的模型基于上一阶段的采样后的样本子集进行训练,但是最终是在全样本空间进行推理,这带来了严重的模型的泛化性问题。
-
数据稀疏性 (Data Sparsity, DS) 问题 。通常后一阶段模型的训练样本规模通常远低于前一阶段任务,相邻两阶段的样本规模通常差多个量级,但是参数空间却是类似的。这同时加大了模型训练的难度,同样带来了泛化性问题。
文中所提出的 Entire Space Multi-task Model (ESMM) 可以同时消除这两个问题,通过:
i)直接在整个样本空间建模CVR;
并使用端到端的衡量指标 pCTCVR=pCTR*pCVR; 这样来解决样本经过转化漏斗后量级相差较大从而影响泛化性能的问题。
使用 x=[tT1,tT2,...,tTk]T 这样的多 field 三维稀疏的特征向量,来利用用户行为序列的信息;y 和 z 是带有y=1或 z=1的二元标签,分别指示是否发生点击或转化事件。y→z 揭示点击和转化标签的序列依赖性;
ESMM的损失函数如下:
其中 θctr 和 θcvr 是 CTR 和 CVR 网络的参数,l函数是交叉熵损失函数。
ii)采用特征表示迁移学习策略。
通过让CVR 网络和 CTR 网络共享参数来实现。
CTR 任务所有展现次数的样本规模比 CVR 任务要丰富多个量级。该参数共享机制使 ESMM 中的 CVR 网络可以从未点击的展现中学习,缓解了数据稀疏性问题。
实验
(1)对比方法
-
Base 是前面介绍引入的基准模型。
-
AMAN 应用负抽样策略,在 {10%,20%,50%,100%} 中搜索最佳采样率。
-
Oversampling 复制正样本以降低稀疏数据训练的难度,在 {2,3,5,10}搜索最优抽样率。
-
Unbias Learning 通过拒绝采样来适应观测的真实分布,其中我们改写 pCTR 为拒绝概率,同时为了保证数值稳定性,对它做了一定的平滑处理。
-
Division 通过单独训练的 CTR 和 CTCVR 网络估计 pCTR 和 pCTCVR 并通过等式(2)计算 pCVR。
-
ESMM-NS 是 ESMM 的精简版,不共享 Embedding Layer 的参数。
(2)对比指标
-
CVR 预估任务,衡量 具有点击的样本子集上的 pCVR 上的 AUC 指标
-
CTCVR 预估任务,衡量 包含所有展现样本集中的 pCTCVR 的 AUC 指标,旨在间接对比整个输入全空间不同的 CVR 建模的优劣,它反映了与 SSB 问题对应的模型性能。
二、精准广告Online Learning算法
1、算法架构
2、实时化算法升级
实时模型+实时特征+实时样本
3、模型透视分析
(1)理解时序特征的作用;
(2)剖析异常状况影响;
4、展望:打造电商场景实时全链路算法
三、深度点击率预估模型探索
1、深度点击率模型
传统的ctr预估模型通常是线性模型,依赖特征工程来学习非线性关系;
为了充分挖掘模型的自动组合特征能力,减少特征表示和相关性计算的约束,构造拟合能力更强的网络结构,我们提出直接对特征进行表示学习,之后通过深层网络来拟合相关性计算,构造深层的端到端 CTR 预估模型。
2、模型特征体系与结构设计
Deep Ctr Model 将样本特征 ID 分 Feature Group 映射到 Embedding 空间,接入后续网络进行端到端的训练,Embedding Network 的参数在 Model 里同时联合训练。
Relevance Network (相关性网络)用来做多个 Feature Group 在 Embedding 空间的非线性变换和组合。
这样的 End2End 训练方式导致了参数的分布不均匀,普通情况下在 ID Embedding 部分参数比后端网络参数要多很多。为了解决 Relevance Network 在超大 Embedding 参数空间下模型收敛难度的问题,我们设计了 Ensemble Network (集成网络),用效果较优的 Feedback Model 构造低维 Feedback Feature,结合 Relevance Network 的中间表示得到最终的 Relevance Score(相关性分数,这里特指 CTR,也就是预测值)。 Ensemble Network 的设计使得模型可以更快更好的收敛。
3、模型训练和优化
(1)训练数据和指标:
样本规模
|
20 亿样本,每条样本平均约 500 个 ID 类特征
|
参数规模
|
特征量千万量级,参数亿量级
|
训练时间
|
约 80 分钟
|
离线对比实验中,我们将 GAUC(Group AUC)作为主要衡量指标,计算方式是分用户计算 AUC 后加权,相比全样本 AUC 更好地反映线上效果。
(2)优化算法选择
SGD、Nesterov Momentum 与 Adam 优缺点对比
从图中可以看出 Adam 在收敛速度上的明显优势,这一趋势和在其他数据集上的对比结果是一致的。
相比于 SGD,Adam 这种自适应学习率的更新方式更加平稳,更适合处理稀疏数据。
(3)激活函数的调优和创新
Sigmoid
Batch Normalization + PRelu
Dice
(4)模型特征组合能力分析
特征体系包括 40 组 Feature Group,其中 13 组是人工设计的交叉组合特征。为了探索 Deep Ctr Model 的特征组合能力,我们做了一系列对比试验。实验设计基于以下认知:
-
有/无 某交叉特征,同一模型的 GAUC Gap 可以衡量该特征对于该模型的增益;
-
都没有某交叉特征,不同模型的 GAUC Gap 可以衡量它们的特征组合(从而学到该缺失交叉特征)能力的差异。
离线评估指标:train loss,test GAUC
4、线上实验效果
(1)与Base Model 进行ab test观察ctr的逐天稳定提升;(离线评估的提升与线上提升效果一致否?)
(2)累计一周的指标,CTR(Click-Through-Rate)和 RPM(Revenue PerMille)相对base line提升。
参考:
计算广告ctr预估系列文章 https://blog.csdn.net/u010352603/article/details/80590129
其他:
- 《推荐系统实践》. 项亮
- http://surprise.readthedocs.io/en/stable/similarities.html
- 《Recommender Systems Handbook》.Francesco Ricci · Lior Rokach · Bracha Shapira · Paul B. Kantor