zoukankan      html  css  js  c++  java
  • 模型选择准则

    模型选择或者模型优劣判断的标准主要参考两个指标,一是模型精度,一是模型复杂度,两者通常情况是相互矛盾的,增加变量个数可以提升模型精度,但也会增加模型复杂度,使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡,通常以精度有第一考虑点,其次是复杂度。

    评价模型精度的方法有:

    1. AUC和ROC:两者通常结合在一起使用,ROC(receiver operating characteristic),接收者操作特征曲线,横坐标是FPR,预测为正实际为负的样本占所有负样本的比例。纵坐标是TPR,预测为正实际为正的样本占所有正样本的比例。ROC曲线越靠近纵轴越好,但ROC曲线没不是一个指标所以在实际应用中并不多。AUC(Area Under Curve)是一个(0,1)的概率值,表示ROC曲线下的面积,通常情况下大于0.5,值越大越好,1的时候最完美,通常0.75以上表示模型拟合较好。
    2. 提升图:将预测概率值降序排列,并等分为10/20等份,计算每等份中正样本率与整体正样本率(固定值)的比值,好的模型该比值是单调递减的,前3个等分的比值大于1,且越大越好。
    3. 洛伦茨曲线
    4. KS曲线和KS值:拿信贷模型举例,假如信用评分是0,1,2,3,4,5,且符合正太分布,我们的目标是贷款给更多的好用户,拒绝更多的坏用户,实现二者最优。贷款给更多的人则要把他们都判定为好样本,理想情况下都判定为好样本,但这个时候会对坏样本误判。如果要拒绝更多的坏用户,理想情况下都判定为坏样本。其中好样本对应于召回率(TPR):预测为正且实际为正的样本数/所有正样本数 。坏样本对应于误诊率(FPR):预测为负但实际为正的样本数/所有负样本数。

    评价模型复杂度的方法有:

    1. AIC(Akaike Information Criterion):赤池信息准则,提供了权衡估计模型复杂度和过拟合数据优良性的标准,公式AIC = 2K -  2ln(L),K是模型参数个数,L是似然函数,当-2ln(L)相同时,AIC越小越好 
    2. BIC(Bayesian Information):贝叶斯信息准则,公式BIC = kln(n) - 2ln(L),K时模型参数个数,L为似然函数。
  • 相关阅读:
    【转】android布局属性详解
    【转】Android开发学习笔记:5大布局方式详解
    【转】android:layout_gravity和android:gravity的区别
    【转】Android fill_parent和wrap_content分析
    @SuppressWarnings的使用、作用、用法
    android bin目录下的.ap_是神马文件?
    Android 工程目录结构简介
    安卓dalvik和art区别
    Android下HelloWorld项目的R.java文件介绍
    android的R.java
  • 原文地址:https://www.cnblogs.com/mango-lee/p/9713353.html
Copyright © 2011-2022 走看看