zoukankan      html  css  js  c++  java
  • 非均衡数据分布的分类问题

    原文:http://blog.sina.com.cn/s/blog_61c463090102w9js.html

    paper学习分享:Large Unbalanced Credit Scoring Using Lasso-Logistic&nbs

    2016-03-01 18:38:27

    Large Unbalanced Credit Scoring Using Lasso-Logistic Regression Ensemble

    最近研究风控领域的非均衡数据分布的分类问题,搜集一些paper阅读,在此分享该paper的思想,可以基于实际数据集操作,实验。

    中心思想:基于规则化的LR模型作为基础学习器,然后对基础学习器进行集成学习

    贡献点:

    (1)基于规则化的LR进行ensemble;

    (2)数据均衡化处理,基于聚类算法和bagging算法

    (3)提出两种新的变量重要性度量方式

    数据集:http://www.kaggle.com/c/GiveMeSomeCredit

    业务:信用评分

    模型:评分卡模型

    挑战:数据高度不均衡,数据倾斜

    data collected are usually highly unbalanced or skewed,常见算法

    Cost-sensitive learning and re-sampling approaches

    Lasso-logistic regression ensemble(LLRE)

    lasso-LR

    bagging Algorithm

    LLRE 算法

    (1)数据均衡化处理,基于变量的相似性,对majority class进行聚类,得到subgroup数据;

    (2)数据多样性处理,对minority class进行resample bagging处理;

    (3)合并上述majority 和 minority sub-group数据集,得到sub-dataset;

    ensemble方法

    加权平均,权重计算

    wi = 1 / (1 + exp(-pi)),其中wi表示第i个分类器的权重,pi表示第i个分类器在第i个obs验证数据集上的性能

    变量重要性评估

    (1)LLR-occurrence measure

    The presence or absence of a predictor variable in the Lasso model naturally indicates whether it is closely related to the outcome variable or not

    (2)基于AUC decrease确定变量重要性

    模型效果比较(基于kaggle数据集)

    RunNo LLRE RF LLR CART

    1 0.8598 0.857 0.8571 0.7632

    2 0.8553 0.8538 0.8526 0.7676

    3 0.8662 0.8609 0.8651 0.7786

    4 0.8602 0.8576 0.8577 0.7778

    5 0.858 0.8564 0.8559 0.7746

    6 0.8662 0.8628 0.8638 0.7689

    7 0.8544 0.8536 0.8526 0.77

    8 0.8619 0.8617 0.8589 0.7749

    9 0.8657 0.8606 0.8636 0.7832

    10 0.8575 0.8569 0.8561 0.7665

    11 0.8622 0.8578 0.8604 0.7762

    12 0.8565 0.8551 0.8542 0.7748

    13 0.8576 0.8519 0.8573 0.7763

    14 0.8573 0.8537 0.8547 0.7761

    15 0.8638 0.8648 0.8606 0.7699

    16 0.8567 0.8535 0.8547 0.7728

    17 0.8586 0.8579 0.8558 0.7783

    18 0.8696 0.8631 0.8666 0.7792

    19 0.8529 0.8523 0.8506 0.77

    20 0.8651 0.8607 0.8609 0.7732

    参考paper:

    ​http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0117844

    大数据集下的非均衡数据分布的分类问题更为突出,可以借鉴一些思路引入到实际工作之中,反欺诈等等。​

  • 相关阅读:
    React: React的组件状态机制
    React: React的复合组件
    JavaScript:ES6的新特性
    React: 研究React的组件化
    React: 认识React
    CSS:CSS弹性盒子布局 Flexible Box
    iOS:应用程序扩展开发之Today扩展(Today Extesnsion)
    《逆向工程核心原理》
    《左手数据,右手图表》
    《设计模式之禅(第2版)》
  • 原文地址:https://www.cnblogs.com/zhizhan/p/5238881.html
Copyright © 2011-2022 走看看