zoukankan      html  css  js  c++  java
  • 理解机器学习模型的指标

    转载:https://www.toutiao.com/i6631437584914448900/

    用例1 :(市场营销)

      假设一家专业公司有100万客户进行广告宣传。假设10%的客户,即10万人,会响应并购买新产品。公司可以选择向所有的客户营销,但这并不是营销资金的最佳使用。最好针对那些更有可能对活动做出回应的客户。这种有针对性的活动不仅可以节省营销资金,而且不会干扰那些对新产品不感兴趣的客户。如果我们有客户对过去活动的反应的历史数据,我们可以使用这些数据建立一个模型来预测哪些客户可能购买或不购买。该模型为每个客户分配0到1.0的概率。然后,该模型根据概率将客户分成10个相等的子群体。

    理解机器学习模型的指标

    图(1):增益图

      良好的预测模型可以帮助公司更好地定位,从而增加收入并节省营销费用。图(1)显示了三种假设模型。如果公司采用Model 1,仅接触到100万客户的40%,就可以得到7.5万(=75%*10万)响应者,假设响应者的平均订单是100美元,收入为100美元* 75,000 = 750万美元。相比之下,Model 2仅获得50,000(= 50%* 100,000)的响应者,收入为100美元* 50,000 = 500万美元,此模型可增加200万美元。Model 3其实很简单,该模型的效果并不比随机向客户营销好多少。

    用例2 :(贷款违约风险)

      银行和其他金融机构每年收到数以百万计的贷款申请。有些是好的贷款申请者,有些则不是。这些机构为了避免经济损失,会对不良贷款申请人和良好贷款申请人进行区分。此外,由于不可能手工审查它们,自动化系统和贷款违约模型被广泛使用。模型将申请人分为高违约风险段1到低违约风险段10,如图(1)所示,第1段的申请人24%,即2400(=24%* 10000)为不良贷款申请人。假设平均贷款规模为1万美元。如果银行避开了第一部分,就可以避免2400 * 10000 = 240,000美元的潜在财务损失。这种损失应该避免。一般来说,银行希望避免贷款给第一部分到第四部分中有75%不良贷款申请人的申请人。请注意,用例2在某种程度上与用例1“相反”。在用例1中,理想的高概率购买者排在前十分位。在用例2中,坏账申请者被排在前十分位。

    收益图/表

      图(1)称为累积增益图,是增益表的视觉呈现。图(2)显示了模型1的增益表。每个模型都有自己的增益表。图(1)只是在同一图中覆盖了模型1和模型2的曲线,因此我们可以直观地比较它们。增益图如何帮助您的业务战略呢?它可以用于两个很好的目的:(i)选择表现更好的机器学习模型,以及(ii)决定如何定位百分比。在使用案例(1)中,目标百分比的选择取决于营销活动成本和预期积极响应的利润。如果仍然有利可图,公司可以选择将目标定位到Decile 8。在使用案例(2)中,银行可以选择Decile 7-10段并避免1到4。让我们更详细地了解Model 1的Gains表。由于模型建立在历史数据之上,因此Gains表也基于历史数据。该模型通过预测将客户排序为十分位数以获得列(A)。基于十分位数,列(B)和(C)总结每个十分位数的计数和累积计数。列(D)显示每个十分位数的平均模型预测。我们已经在历史数据中了解买家和非买家,因此列(E)总结了非买家的数量。列(F),(G)和(H)分别显示百分比,累积计数和百分比。同样,买方的计数统计数据可以在列(I)到(L)中汇总。注意,列(L)由图(1)中的蓝色曲线可视地呈现。 

    理解机器学习模型的指标

    图(2):模型1的增益表

    提升图

      提升图,特别是累积提升图,显示公司获得买家的可能性比公司随机定向客户的可能性要大得多。每个机器学习模型都有自己的提升图。它在列(N)中计算为列(K)/列(P)。Decile 1中Model 1的升力为2.4。这意味着与随机选择相比,模型1的Decile 1可以获得2.4倍的客户。对于Decile 4,模型1仍然比随机选择得到1.88倍。升力越高表示模型越好。提升的最小值是1.0。

    理解机器学习模型的指标

    图(3):提升曲线图

    Kolmogorov-Smirnov(KS)图表

      KS测量正面和负面响应者的分布之间的分离程度。在数学表达式中,KS = | Cumultative%positive-Cumultative %nagative |。在营销用例中,KS = |非购买者总数的累积百分比 - 总购买者的累积百分比|。在贷款违约用例中,KS = |优秀贷款申请人总数的累计百分比 - 不良贷款申请人总数的累计百分比|。参见图(2)中的列(M)。值越高,模型在分离正面和负面情况时越好。如果模型不能将正面和负面情况(例如模型3)分开,则所有十分位数的KS将为0.图(4)显示模型1和模型2的KS图。模型1优于模型2有两个原因:( i)模型1的最大值为38.9%,高于模型2的11.1%。

    理解机器学习模型的指标

    图(4):KS图

    混淆矩阵

      二元分类器只是一个机器学习分类模型,响应只有两个结果(是/否,1/0,真/假,男/女,好/坏等)。该模型给出了从1.0到0.0的概率。必须决定临界值以将预测标记为(1/0)。如果选择0.50作为Model 1的分界点会发生什么。Decile 1-4将被归类为买家,Decile 5-10 归类为非买家。显然并非所有Decile 1-4都是真正的买家。当我们比较预测买家或非买家时,我们得到图(5)中模型1的混淆矩阵。有四种情况:

    • 真阳性(TP):实际值是正,预测为正。
    • 假阳性(FP),实际值为负,预测为正。
    • 假阴性(FN),实际值为正,预测为负。
    • 真阴性(TN),实际值为负,预测为正。
    理解机器学习模型的指标

    图(5):模型1的混淆矩阵

      当截止值为0.50时,我们如何呈现错误分类?我们使用称为错误率的度量来判断错误分类的实例的比率,如图(6)所示。它显示当截止值为0.50时,错误率为(325,000 + 25,000)/ 1,000,000 = 0.35。但是我们如何选择临界值呢?我们可以在每个可能的截止时获得错误率,并选择一个给出最低的错误率。图(6)表明截止值应该高于0.95。

    理解机器学习模型的指标

    图(6):错误率

    ROC(受试者工作特征曲线)和AUC(曲线下面积)

      ROC曲线是最有效的评估指标之一,因为它可视化整个截止值范围的预测准确性。为了得到ROC,我们只需要从混淆矩阵中得出两个比率:真阳性率(TPR)(Sensitivity),真阴性率(TNR)(Specificity):

    理解机器学习模型的指标

     

      TPR和FPR随着截止值的变化而变化。可以针对不同的截止值计算各种TPR和FPR。当我们沿着y轴绘制TPR并沿着x轴绘制FPR时,我们得到ROC曲线。ROC图是比较模型的绝佳视觉展示。如果我们有一个完美的模型,ROC曲线将通过左上角 - 表示没有错误。更好的模型是当ROC靠近左上角时(如绿色箭头所示)。可以从ROC曲线获得的最重要的参数是曲线下面积(AUC)。对于完美模型,曲线下面积为1.0。图(7)给出了AUC值的一般指导。

    理解机器学习模型的指标

    图(7):ROC和AUC

    基尼指数

      基尼指数可以从图(1)中的增益图中轻松获得。它测量累积响应曲线和45度线之间的面积。基尼系数实际上相当于AUC,但不同于比例因子 - 基尼= 2 * AUC -1。基尼的范围从0到1。图(8)显示了与AUC的关系。

    理解机器学习模型的指标

    图(8):基尼指数

     

     

     

  • 相关阅读:
    struts1下载地址
    基础知识浮点数
    基础知识this[String]
    矩阵基础知识(二)
    矩阵基础知识(三)
    設計公司軟件開發需求分析流程
    動態調用js文件
    图片的淡入淡出的实现方法
    IIS7.5(经典/集成),IIS6,asp.net 4.0下配置Url映射(asp.net mvc)
    页面状态加载....
  • 原文地址:https://www.cnblogs.com/wzdLY/p/10077077.html
Copyright © 2011-2022 走看看