zoukankan      html  css  js  c++  java
  • 信用风险评分卡研究-第6章笔记

    引言
    迄今为止,本书中都是采用简单的样本数据集来解释相关概念和程序。但是,为了更深一步,就必须考虑一个对信用评分卡开发中可能遇到 的数据来说更具代表性的数据集。因此,本章将对在接下来几章中用到的样本数据集进行说明。

    数据字典
    下面介绍的数据集并非来源于真实数据。但是,其中的字段对于信用评分中用到的真实数据都是具有代表性的。数据中包括信用卡申请数据和行为数据。违约字段Status表示90天逾期。
    表6.1列出了字段名,含义及各类别的取值。该数据包含1200笔记录,每笔记录有11个字段,并创建为SAS文件"C_DataSet.sas"。该文件将包含在所有使用该数据集的实例的标题中。该数据集将被称为CreditCard数据。

    表6.1的字段1~8可以在申请评分卡中用来预测变量Status,即批准给一个新客户签发信用卡。而其余字段,9和10与已经签发信用卡的客户行为有关。因此,它们可以用于开发行为评分卡,或监测已有客户的行为并防范可能发生的违约行为。
    表6.1信息信用卡数据集的数据字典
    1-CustID-字段-客户号
    2-ResStatus-居住状况(自有、租住、其他)
    3、EmpStatus-就业状态(雇佣、未知)
    4、CustAge-客户年龄
    5、TmAtAddress-当前住址居住时间(月数)
    6、CustIncome-客户总收入($)
    7、TmWBank-成为本行客户的时间(月数)
    8、OtherCC-客户拥有其他信用卡的标识
    9、AmBalance-平均月度账户余额
    10、UtiRate-使用率
    11、Status-逾期90天的指标(违约行为1,正常为0)

    例6.1本例中,对数据集CreditCard中变量ResStatus和EmpStatus的各个类别进行频数计数,对字段CustAge和AMBalance进行单变量分析。列表6.1是调入数据以及调用PROC FREQ和PROC UNIVARIATE的代码。
    列表6.1数据集CreditData的应用案例
    /*code folder*/
    %LET DIR='';
    %INCLUDE "&DIRCC_DataSet.sas";

    PROC FREQ DATA=CreditCard;
    TABLE ResStatus EmpStatus;
    RUN;

    PROC UNIVARIATE DATA=CreditCard;
    VAR CustAge AMBalance;
    RUN;

    需要注意的是,用宏命令%INCLUDE读取和执行包含数据生成脚本的文件内容,而不是将代码添加到本例中。如果需要用到该数据集,这种方法适用于所有情况。也许有必要改变宏变量dir的取值以该文件物理地址所有的真实文件夹相对应。

  • 相关阅读:
    [转]计算机视觉之跟踪算法——相关滤波器Correlation Filter
    [转]CNN 中千奇百怪的卷积方式大汇总
    [转]边框回归(Bounding Box Regression)详解
    [转]CNN目标检测(一):Faster RCNN详解
    史上最全的机器学习工具手册!
    同样是玩Python,怎么能玩出新花样?
    2019阿里巴巴面试题集锦(有答案哦),收藏!
    10个Python图像处理工具,干货整理!
    网页数据如何实现实时刷新?
    数据结构与算法之链表学习方法攻略
  • 原文地址:https://www.cnblogs.com/wdkshy/p/9898553.html
Copyright © 2011-2022 走看看