金融风控之贷款违约预测笔记

zoukankan html css js c++ java

金融风控之贷款违约预测笔记
要求

根据贷款申请人的数据信息预测其是否有违约的可能，以此判断是否通过此项贷款。

数据概况

总数据量超过120w，包含47列变量信息，其中15列为匿名变量。从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时对employmentTitle、purpose、postCode和title等信息进行脱敏
赛题地址：https://tianchi.aliyun.com/competition/entrance/531830/information?lang=zh-cn

评测标准

AUC评估模型
- AUC(area under the curve)是ROC曲线下的面积
  学习路线：混淆矩阵 -> ROC -> AUC
- 混淆矩阵
  以预测肿瘤是否为恶行为例：
  
  如图：TP表示预测为良性，而实际也是良性的样例数；
  FN表示预测为恶性，而实际是良性的样例数；
  FP表示预测为良性，而实际是恶性的样例数；
  TN表示预测为恶性，而实际也是恶性的样例数；
以上四个数构成混淆矩阵，然后定义两个变脸：

FPR表示，在所有的恶性肿瘤中，被预测成良性的比例。称为伪阳性率。伪阳性率告诉我们，随机拿一个恶性的肿瘤样本，有多大概率会将其预测成良性肿瘤。显然我们会希望FPR越小越好

TPR表示，在所有良性肿瘤中，被预测为良性的比例。称为真阳性率。真阳性率告诉我们，随机拿一个良性的肿瘤样本时，有多大的概率会将其预测为良性肿瘤。显然我们会希望TPR越大越好
以FPR/TPR为坐标画图：（显然左上角的最好）
- 将正负样本分离的程度不同，不由不同的ROC曲线
- ROC曲线下面的面积即为AUC，其除了考虑了准确性之外还考虑的阈值的影响，所以很稳定
  参考：https://blog.csdn.net/liweibin1994/article/details/79462554
查看全文

相关阅读:
POJ1995 ZOJ2150 Raising Modulo Numbers【快速模幂】
POJ3641 UVA11287 HDU1905 Pseudoprime numbers【素数判定+快速模幂】
ACM题解系列之三：秋田拓哉：《挑战程序设计竞赛》（第2版）
HDU3257 Hello World!【打印图案+位运算】
ACM题解系列之二：刘汝佳：《算法竞赛入门经典训练指南》
UVa10881 Piotr's Ants【模拟】
POJ1852 UVa10714 Ants【水题】
剑指Offer——平衡二叉树
 剑指Offer——二叉树的深度
 剑指Offer——数字在排序数组中出现的次数

原文地址：https://www.cnblogs.com/qian-shan/p/13678612.html

金融风控之贷款违约预测笔记

要求

数据概况

评测标准