CTR校准 - 走看看

zoukankan html css js c++ java

CTR校准
普遍预测CTR不准，需要校准。例如。boosted trees and SVM预測结果趋于保守。即预測的概率偏向于中值；而对于NaiveBayes预測的概率，小概率趋于更小。大概率趋于更大。经常使用的校准方法有Binning和Pair‐Adjacent Violators (PAV)；以下分别说说这两种方法。

Binning思想比較简单，也easy实现。

须要说明的是，通常校准算法不不过将概率校准为还有一概率。而是广义地将一分类器的输出score(比如SVM的输出)校准为一概率；这里的score在本文中指的就是预估的点击率CTR。

採用以上方法就能够得到每一个bin的平均输入概率和输出概率(输入输出都是相对于算法而言的)。
以下是我针对1kw曝光量的測试集得到的每一个bin输入输出概率：

7.88491695029e-08 9.80392156863e-05 4|50000 5.4510560119e-07 0.000274509803922 13|50000 1.35458085469e-06 0.000372549019608 18|50000 2.33257130656e-06 0.000588235294118 29|50000 3.39343704862e-06 0.000313725490196 15|50000 4.91818880101e-06 0.000352941176471 17|50000 6.69217711e-06 0.000313725490196 15|50000 8.65811344814e-06 0.000392156862745 19|50000 1.00954604284e-05 9.80392156863e-05 4|50000 1.14438087348e-05 0.00021568627451 10|50000 1.30646586671e-05 0.000196078431373 9|50000 1.50354239562e-05 0.000156862745098 7|50000 1.75724883698e-05 0.000235294117647 11|50000 2.012701573e-05 0.000196078431373 9|50000 2.25293057122e-05 0.000254901960784 12|50000 2.47121329232e-05 0.000294117647059 14|50000 2.68149995297e-05 0.000235294117647 11|50000 2.87109118589e-05 0.000235294117647 11|50000 3.03836824801e-05 0.000274509803922 13|50000 3.27245870019e-05 0.000450980392157 22|50000 3.51748897506e-05 0.000274509803922 13|50000 3.7623296079e-05 0.000352941176471 17|50000 4.03544768064e-05 0.000490196078431 24|50000
。。。
这仅仅是前面一些片段，第一列为每一个bin的平均预估点击率，第二列是校准的点击率，第三列为校准时分子分母的值(这里就是点击量和曝光量)，这里每一个bin的总量均为50000。对整个每一个bin的平均预估点击率和校准点击率画出散点图为：

能够看出两个点击率是相关的。这样看还看不出详细什么关系，画出对数图：

能够非常明显地看出平均预估点击率大于0.0001时。平均预估点击率的对数与校准点击率的对数是呈线性关系，

logy = alogx + b 得到y = cx^a, 预计出參数c和a就可以。

对于平均预估点击率小于0.0001时，能够简单地使用线性回归求出方程。
有了这两个方程就能够对随意的点击率进行校准了。

当然，我看也有人将以上平均预估点击率划分成若干区间0 < v1 < v2 < : : : < vn+1 < 1，对随意的点击率进行查找所属区间(vi,vi+1)，採用线性插值得到的校准点击率为 α p(vi) + (1 - α )p(vi+1)。

1.将score由大到小排序，对于随意两个相邻的score(i)和score(j)。若它们相应的样本属于不同类，则我们希望样本i属于正类，样本j属于负类
2.对于随意两个相邻score，若上述条件不满足，则令这两个score所定义区间相应的后验概率为score(i)和score(j)的均值。
3.对排序后的score依照上述规则进行一次“扫描”（由小到大或由大到小均可），直到没有变化为止，即完毕了PAV

python-sklearn包中含有http://scikit-learn.org/stable/modules/generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression 能够直接调用：

from sklearn.isotonic import IsotonicRegression as IR ir = IR() ir.fit( p_train, y_train ) p_calibrated = ir.transform( p_test ) # or ir.fit( p_test ), that's the same thing

參考资料：

http://fastml.com/classifier-calibration-with-platts-scaling-and-isotonic-regression/

http://scikit-learn.org/stable/modules/generated/sklearn.isotonic.IsotonicRegression.html#sklearn.isotonic.IsotonicRegression

http://wan.poly.edu/KDD2012/docs/p768.pdf
查看全文

相关阅读:
Redission源码
 RocketMQ 的heartBeat在做哪些事情
 Netty调用channel.close方法和客户端所在Java进程正常/异常关闭的细节
 RocketMQ源码之事务消息的回调方法应该怎么写？
spring 源码
 多线程同步工具ReentrantLock CountDownLatch CyclicBarrier Semaphore join
RocketMQ 的事务消息
 RocketMQ 怎样解决为了实时拉取消息而不得不一直轮询的问题
 .net winform 调用类中的webbrowser 报错：当前线程不在单线程单元中,因此无法实例化 ActiveX
[转]如何不格式化、不丢失数据修复内存卡

原文地址：https://www.cnblogs.com/mfrbuaa/p/5036775.html