引言
迄今为止,本书中都是采用简单的样本数据集来解释相关概念和程序。但是,为了更深一步,就必须考虑一个对信用评分卡开发中可能遇到 的数据来说更具代表性的数据集。因此,本章将对在接下来几章中用到的样本数据集进行说明。
数据字典
下面介绍的数据集并非来源于真实数据。但是,其中的字段对于信用评分中用到的真实数据都是具有代表性的。数据中包括信用卡申请数据和行为数据。违约字段Status表示90天逾期。
表6.1列出了字段名,含义及各类别的取值。该数据包含1200笔记录,每笔记录有11个字段,并创建为SAS文件"C_DataSet.sas"。该文件将包含在所有使用该数据集的实例的标题中。该数据集将被称为CreditCard数据。
表6.1的字段1~8可以在申请评分卡中用来预测变量Status,即批准给一个新客户签发信用卡。而其余字段,9和10与已经签发信用卡的客户行为有关。因此,它们可以用于开发行为评分卡,或监测已有客户的行为并防范可能发生的违约行为。
表6.1信息信用卡数据集的数据字典
1-CustID-字段-客户号
2-ResStatus-居住状况(自有、租住、其他)
3、EmpStatus-就业状态(雇佣、未知)
4、CustAge-客户年龄
5、TmAtAddress-当前住址居住时间(月数)
6、CustIncome-客户总收入($)
7、TmWBank-成为本行客户的时间(月数)
8、OtherCC-客户拥有其他信用卡的标识
9、AmBalance-平均月度账户余额
10、UtiRate-使用率
11、Status-逾期90天的指标(违约行为1,正常为0)
例6.1本例中,对数据集CreditCard中变量ResStatus和EmpStatus的各个类别进行频数计数,对字段CustAge和AMBalance进行单变量分析。列表6.1是调入数据以及调用PROC FREQ和PROC UNIVARIATE的代码。
列表6.1数据集CreditData的应用案例
/*code folder*/
%LET DIR='';
%INCLUDE "&DIRCC_DataSet.sas";
PROC FREQ DATA=CreditCard;
TABLE ResStatus EmpStatus;
RUN;
PROC UNIVARIATE DATA=CreditCard;
VAR CustAge AMBalance;
RUN;
需要注意的是,用宏命令%INCLUDE读取和执行包含数据生成脚本的文件内容,而不是将代码添加到本例中。如果需要用到该数据集,这种方法适用于所有情况。也许有必要改变宏变量dir的取值以该文件物理地址所有的真实文件夹相对应。