zoukankan      html  css  js  c++  java
  • CTR预估(1)--CTR基础

    1、评价指标体系

      1)logloss:评价点击率预测的准确性

      计算公式:

      

      对于ctr计算来说:

      

      最后化简可以成为:

      

      最后的计算代码:

      

      这样的计算代码中在使用log计算时pctr[i]中的必须判断是否为0,否则出现无穷的情况;

      2)AUC指标

      使用二分类举例:

      首先根据分类结果统计一个混淆矩阵:

      

      举例:

      

      二分类的评价指标:

      

      预测准确率表示:在预测值中为1的预测的准确率

      召回率表示:真实值为1的预测正确的比例

      正确率:整个预测的正确率1预测1 + 0预测0 /全部;

      ROC图:越靠近左上部分的分类效果就越好;以FP Rate为横坐标, TP Rate为纵坐标;

      

      ctr 预估是一个二分类问题,可以根据ctr的预测设置阈值然后统计FP Rate和 TP Rate,然后根据这两个值画出ROC曲线:

      

      为了避免阈值对分类器结果造成影响,引入AUC进行评价;

      AUC:area under curve:

      

      

      

       线上指标:

      

      对于线上指标,cpm要涨,但是cpc要维持稳定;

      

      上线需要根据具体的要求进行调整,看看是依靠点击率还是依靠点击单价进行;

    2、评估系统

      

       广告请求到来后,进行ctr预估系统,系统从广告库中选择广告进行ctr预估,产生点击率预估值;预估的流程:

      

      首先对数据进行预处理,通过对广告设置埋点,一旦广告被点击生成唯一的urlId进入点击日志系统与展示日志进行匹配完成一次点击统计,由于样本库巨大需呀对其进行采样,对于点击率来说大多数的结果都是很小也就是一个负样本,因此需要对其进行负采样,这样做的目的就在于减少训练数据的规模,同时还可以增加正样本的比例,使得AUC还会增加也就是分类器的效果更好。

      然后进行特征工程,对特征进行筛选,选择出有用的特征或者对特征进行处理;

    3、项目介绍

      

  • 相关阅读:
    购物车程序
    python学习第二节 数据类型、字符编码、文件处理
    while实现2-3+4-5+6...+100 的和
    给文件加权限
    查询数据插入新表格
    归档程序错误。在释放之前仅限于内部连接
    查看Linux环境变量
    查找文件命令
    ORACLE导入导出操作篇
    oracle中使用minus进行数据排除(类似SqlServer except函数)
  • 原文地址:https://www.cnblogs.com/daguankele/p/6405492.html
Copyright © 2011-2022 走看看