zoukankan      html  css  js  c++  java
  • 模型选择准则

    模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。

    评价模型精度的方法有:

    1. AUC和ROC:两者通常结合在一起使用,ROC(receiver operating characteristic),接收者操作特征曲线,横坐标是FPR,预测为正实际为负的样本占所有负样本的比例。纵坐标是TPR,预测为正实际为正的样本占所有正样本的比例。ROC曲线越靠近纵轴越好,但ROC曲线没不是一个指标所以在实际应用中并不多。AUC(Area Under Curve)是一个(0,1)的概率值,表示ROC曲线下的面积,通常情况下大于0.5,值越大越好,1的时候最完美,通常0.75以上表示模型拟合较好。
    2. 提升图:将预测概率值降序排列,并等分为10/20等份,计算每等份中正样本率与整体正样本率(固定值)的比值,好的模型该比值是单调递减的,前3个等分的比值大于1,且越大越好。
    3. 洛伦茨曲线
    4. KS曲线和KS值:拿信贷模型举例,假如信用评分是0,1,2,3,4,5,且符合正太分布,我们的目标是贷款给更多的好用户,拒绝更多的坏用户,实现二者最优。贷款给更多的人则要把他们都判定为好样本,理想情况下都判定为好样本,但这个时候会对坏样本误判。如果要拒绝更多的坏用户,理想情况下都判定为坏样本。其中好样本对应于召回率(TPR):预测为正且实际为正的样本数/所有正样本数 。坏样本对应于误诊率(FPR):预测为负但实际为正的样本数/所有负样本数。

    评价模型复杂度的方法有:

    1. AIC(Akaike Information Criterion):赤池信息准则,提供了权衡估计模型复杂度和过拟合数据优良性的标准,公式AIC = 2K -  2ln(L),K是模型参数个数,L是似然函数,当-2ln(L)相同时,AIC越小越好 
    2. BIC(Bayesian Information):贝叶斯信息准则,公式BIC = kln(n) - 2ln(L),K时模型参数个数,L为似然函数。
  • 相关阅读:
    0607pm克隆&引用类&加载类&面向对象串讲&函数重载
    0607am抽象类&接口&析构方法&tostring&小知识点
    静态
    面向对象--继承和多态
    面向对象的三个特性:封装
    ALV可输入状态下输入金额字段变小数的问题
    退出程序是跳过屏幕自检 比如 必输 EXIT-COMMAND
    ALV的报表对用户定义格式的控制(ALV I_SAVE)
    获利能力分析COPA的BAPI:BAPI_COPAACTUALS_POSTCOSTDATA 通过增强返回凭证号
    一个使用CDS VIEW 的 DEMO
  • 原文地址:https://www.cnblogs.com/mango-lee/p/9713353.html
Copyright © 2011-2022 走看看