zoukankan      html  css  js  c++  java
  • 第4章 预测力指标——显著性关联性检验

    一.原因

      1. logistics模型不允许自变量之间有很强的相关性
      2. 过滤预测力较低的变量
      3. 减少变量数量

    二.指标 

    2.1两个连续变量 

        • 皮尔森相关系数(容易受极端值的影响)

    proc corr data=data-set-name;

    var var1 var2 ...varn ;

    run; 

        • 斯皮尔曼相关系数 (用等级计算,不易受极端值影响)

    proc corr data=data-set-name  Spearman;

    var var1 var2...varn;

    run; 

    附:/* 同时计算皮尔森和斯皮尔曼相关系数 */ 

    proc corr data=data-set-name

    Pearson  Spearman

    OUTP=PCorr  OUTS=SCorr;

    var var1 var2 var3...varn;

    run;

    /* 提取相关系数并降序排列 */ 

     %ExtractCorr(SCorr,corr_values); /*输入数据集,输出数据集 */

    proc print data=corr_values;

    run; 

    2.2  x和y都是名义变量或顺序变量

        • 皮尔森卡方统计量

    proc freq data=dataset-name order=data;

    tables var1*var2/CHISQ;

    weight var3;

    run;

          •  似然比统计量

    2.3  y为连续变量,x为名义或顺序变量

        • F检验   用宏%CalcGrf
        • 基尼方差  (2名义;2顺序;1连续,1名义/顺序) 
          • 有一个连续变量:

    %CalcGcf(DSin,Var,YVar,M_Gr,M_Fstar,M_Pval)  /* X输入数据集,名义变量x,连续变量y ,基尼方差的回报,F值的回报,p值的回报 */   

    eg: 

    /* initialize the macro variables*/

    %let DSin=CC ;  %let XVar=default;  

    %let YVar=AvgBalance;  %let Gr=; %let Fstar=; %let Pvalue=;

     /*use macro to calculate*/

    %CalcGrf(&DSin,&Var,&YVar,Gr,Fstar,Pvalue);

    %put Gr=&Gr    Fstar=&Fstar   Pval=&Pvalue;

    run; 

          • 都是名义或顺序变量:(也可计算熵方差)

    %GNomNom(DSin,XVar,YVar,M_Gr)  /*  输入数据集,第一个变量,第二个变量,基尼方差的回报 */ 

    【变换 x和y的位置,基尼方差不同】 

    2.4 x ,y均为二元变量

        • 概率比【注意:若置信区间位于1的两侧,则不能用概率比判断】 

    proc freq data=dataset-name  order=data;

    table var1*var2/measures chisq;

    weight var3;

    run; 

     

    2.5 两个名义变量,其中一个是二元变量

        • 信息值IV(不能用于顺序变量,否则顺序被忽略;若用于连续变量,则被分段之后当作名义变量处理) 

     %infovalue(dsin,xvar,yvarbin,m_iv) /*  输入数据集,第一个名义变量,二元因变量,返回的信息值 */

    %let dsin=dataset1;

    %let xvar=var1;

    %let  yvarbin=default;

    %let IVx1=;

     %infovalue(&dsin,&xvar,&yvarbin,IVx1);

    %put IV=&IVx1 ;

    【IV:0.1.~0.30预测力中等;>0.30强;<0.02无预测力;0.02~0.10弱】 

     

    2.6 变量选择的自动化

        • 所有自变量类型相同
     %ginipower(dsin,dv,ivlist,dsout) /* 输入数据集,二元因变量,名义自变量清单,输出数据集 */

    %PowerFG:连续自变量清单

    %PowerOdds:二元自变量清单

     

        • 提取预测力最强的变量

    %ExtractTop (DSin,varcol,selvr,method,NTop,cutoff,M_varlist)

      /* 输入数据集,包含变量名的列,包含关联性指标的列,选择方法(1:选择预测力最强NTop的几个变量,2:临界值),NTop的数量,临界值,返回列表 */

     

  • 相关阅读:
    SciTE 快捷键
    MySQL数据库性能优化
    常用的正则表达式全面总结
    PHP中的Memcache的应用
    经典数学题:态度决定一切
    PHP Socket基础
    由浅入深探究mysql索引结构原理、性能分析与优化
    深入理解HTTP协议
    PHP会话控制之Session介绍原理
    PHP会话控制之Cookie使用例子
  • 原文地址:https://www.cnblogs.com/jane-lau/p/8459282.html
Copyright © 2011-2022 走看看