第4章预测力指标——显著性关联性检验

zoukankan html css js c++ java

第4章预测力指标——显著性关联性检验
一.原因
1. logistics模型不允许自变量之间有很强的相关性
  
  过滤预测力较低的变量
  
  减少变量数量
二.指标

2.1两个连续变量
- 皮尔森相关系数（容易受极端值的影响）
proc corr data=data-set-name;

var var1 var2 ...varn ;

run;
- 斯皮尔曼相关系数（用等级计算，不易受极端值影响）
proc corr data=data-set-name Spearman;

var var1 var2...varn;

run;

附：/* 同时计算皮尔森和斯皮尔曼相关系数 */

proc corr data=data-set-name

Pearson Spearman

OUTP=PCorr OUTS=SCorr;

var var1 var2 var3...varn;

run;

/* 提取相关系数并降序排列 */

%ExtractCorr(SCorr,corr_values); /*输入数据集，输出数据集 */

proc print data=corr_values;

run;

2.2 x和y都是名义变量或顺序变量
- 皮尔森卡方统计量
proc freq data=dataset-name order=data;

tables var1*var2/CHISQ;

weight var3;

run;
2.3 y为连续变量，x为名义或顺序变量
- F检验用宏%CalcGrf
  
  基尼方差（2名义；2顺序；1连续，1名义/顺序）
  
  有一个连续变量：
%CalcGcf(DSin,Var,YVar,M_Gr,M_Fstar,M_Pval) /* X输入数据集，名义变量x,连续变量y ,基尼方差的回报，F值的回报，p值的回报 */

eg:

/* initialize the macro variables*/

%let DSin=CC ; %let XVar=default;

%let YVar=AvgBalance; %let Gr=; %let Fstar=; %let Pvalue=;

/*use macro to calculate*/

%CalcGrf(&DSin,&Var,&YVar,Gr,Fstar,Pvalue);

%put Gr=&Gr Fstar=&Fstar Pval=&Pvalue;

run;
- 都是名义或顺序变量：(也可计算熵方差)
%GNomNom(DSin,XVar,YVar,M_Gr) /* 输入数据集，第一个变量，第二个变量，基尼方差的回报 */

【变换 x和y的位置，基尼方差不同】

2.4 x ,y均为二元变量
- 概率比【注意：若置信区间位于1的两侧，则不能用概率比判断】
proc freq data=dataset-name order=data;

table var1*var2/measures chisq;

weight var3;

run;

2.5 两个名义变量，其中一个是二元变量
- 信息值IV（不能用于顺序变量，否则顺序被忽略；若用于连续变量，则被分段之后当作名义变量处理）
%infovalue(dsin,xvar,yvarbin,m_iv) /* 输入数据集，第一个名义变量，二元因变量，返回的信息值 */

%let dsin=dataset1;

%let xvar=var1;

%let yvarbin=default;

%let IVx1=;

%infovalue(&dsin,&xvar,&yvarbin,IVx1);

%put IV=&IVx1 ;

【IV：0.1.~0.30预测力中等；>0.30强；<0.02无预测力；0.02~0.10弱】

2.6 变量选择的自动化
- 所有自变量类型相同
%ginipower(dsin,dv,ivlist,dsout) /* 输入数据集，二元因变量，名义自变量清单，输出数据集 */

%PowerFG:连续自变量清单

%PowerOdds:二元自变量清单
- 提取预测力最强的变量
%ExtractTop (DSin,varcol,selvr,method,NTop,cutoff,M_varlist)

/* 输入数据集，包含变量名的列，包含关联性指标的列，选择方法（1：选择预测力最强NTop的几个变量，2：临界值），NTop的数量，临界值，返回列表 */
查看全文

相关阅读:
将博客搬至CSDN
linux一部分常用的命令
 java实现qq邮箱每天定时发送邮件
 面向接口编程的小例子
 解决安装mysql的”A Windows service with the name MySQL already exists.“问题
 SpringCloud 随笔
 博客文章链接
 LocalDate与Date转化
 maven的配置以及使用
 windows系统下nginx+tomcat+redis做负载均衡和session粘滞附整套解决方案

原文地址：https://www.cnblogs.com/jane-lau/p/8459282.html

第4章 预测力指标——显著性关联性检验

第4章预测力指标——显著性关联性检验