模型选择准则

zoukankan html css js c++ java

模型选择准则
模型选择或者模型优劣判断的标准主要参考两个指标，一是模型精度，一是模型复杂度，两者通常情况是相互矛盾的，增加变量个数可以提升模型精度，但也会增加模型复杂度，使模型出现过拟合危险。我们的目标是在精度和复杂度之间找到平衡，通常以精度有第一考虑点，其次是复杂度。

评价模型精度的方法有：
1. AUC和ROC：两者通常结合在一起使用，ROC（receiver operating characteristic），接收者操作特征曲线，横坐标是FPR，预测为正但实际为负的样本占所有负样本的比例。纵坐标是TPR，预测为正且实际为正的样本占所有正样本的比例。ROC曲线越靠近纵轴越好，但ROC曲线没不是一个指标所以在实际应用中并不多。AUC（Area Under Curve）是一个（0，1）的概率值，表示ROC曲线下的面积，通常情况下大于0.5，值越大越好，1的时候最完美，通常0.75以上表示模型拟合较好。
2. 提升图：将预测概率值降序排列，并等分为10/20等份，计算每等份中正样本率与整体正样本率（固定值）的比值，好的模型该比值是单调递减的，前3个等分的比值大于1，且越大越好。
3. 洛伦茨曲线
4. KS曲线和KS值：拿信贷模型举例，假如信用评分是0，1，2，3，4，5，且符合正太分布，我们的目标是贷款给更多的好用户，拒绝更多的坏用户，实现二者最优。贷款给更多的人则要把他们都判定为好样本，理想情况下都判定为好样本，但这个时候会对坏样本误判。如果要拒绝更多的坏用户，理想情况下都判定为坏样本。其中好样本对应于召回率（TPR）：预测为正且实际为正的样本数/所有正样本数。坏样本对应于误诊率（FPR）：预测为负但实际为正的样本数/所有负样本数。
评价模型复杂度的方法有：
1. AIC（Akaike Information Criterion）：赤池信息准则，提供了权衡估计模型复杂度和过拟合数据优良性的标准，公式AIC = 2K - 2ln(L)，K是模型参数个数，L是似然函数，当-2ln(L)相同时，AIC越小越好
2. BIC（Bayesian Information）：贝叶斯信息准则，公式BIC = kln(n) - 2ln(L)，K时模型参数个数，L为似然函数。
查看全文

相关阅读:
Panda 交易所带我们一起来聊聊2021年区块链未来趋势
 Panda 交易所视点“区块链+政务”深度融合开启智慧城市政务新时代
 Panda 交易所热点关注，区块链数字溯源系统平台研发搭建
 熊猫交易所视点，2021年“区块链+”前景如何？
Adroid Studio 消息推送
 .net core 设计模式--->代理模式
 .net core 邮件发送封装并生成dll文件
 U3D PC端桌面应用程序远程升级
 .net core 带附件邮件发送
 Copula函数

原文地址：https://www.cnblogs.com/mango-lee/p/9713353.html