贷款违约预测-赛题理解&基线预测 天池鱼佬直播
原网址: https://tianchi.aliyun.com/course/video?liveId=41203
下载地址: https://tianchi-media.oss-cn-beijing.aliyuncs.com/online-video/41203/2020-09-16 21-28-51.mp4
内容大纲
- 初识金融风控之贷款违约预测
- 竞赛中的几个主要模块
- 赛题理解部分
- 基线方案(baseline)
- 更多尝试方向——持续优化
1. 初识金融风控之贷款违约预测
金融风控
- 行业的角度
- 消费金融
- 供应链金融
- 信用借贷
- 大数据征信
- 融资租赁
- 资金的角度
- 还款能力
- 还款意愿
- 反欺诈反作弊
- 薅羊毛
- 平台安全
2. 竞赛中的几个主要模块
3. 赛题理解部分
3.1 赛题理解 业务
3.1 赛题理解 数据
赛题数据
- 每种数据集之间的关系
- 数据中缺失值情况
- 类别特征和数值特征基本分布(类别数、均值、方差、最值等)
评价指标
- 分类指标
- 精确率、召回率、AUC、logloss
- 回归指标
- MAE、MAPE、RMSE等
3.2 问题建模 线下验证
时序验证 (按时间段切割)
k折交叉验证
3.3 EDA 探索性数据分析
了解数据
- 数据是否大小格式(进行处理)
- 数据是否干净(进行处理)
- 数据格式是否正确 (进行处理)
为建模做准备
3.4 异常点处理
-
当做缺失值进行处理
-
删除离群点所在样本
-
处理错误值
-
错误标签
-
标签和评估指标不一致
- 标签log1p化,再用mse进行优化学习
3.5 类型也正和数值特征
3.6 时间特征的处理
- 具体举例子
- 特征选择
- 举例科大迅雷AI营销大赛
-
必备模型
-
XGBoost LightGBM
-
对特征处理要求比较低
-
对类别和连续特征优化
-
缺失值不需要填充
- 模型融合
-
-
赛题理解部分
-
AUC评价指标
-
log-loss
-
F1-score
- 可以自己调整,适当提升分数
-
4. 基线方案(baseline) github地址
5. 更多尝试方向——持续优化