python信用评分卡建模(附代码,博主录制)
pearsonr皮尔森共线系数要求:
1.每个变量数据集符合正态分布
2. p值代表极端值出现概率,样本量小时p值不可靠,但样本量大于500时,p值具有很大参考价值。
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.pearsonr.html
https://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.stats.spearmanr.html
http://www.360doc.com/content/08/1228/23/50235_2219531.shtml
http://blog.csdn.net/lhkaikai/article/details/37352587
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。
公式:
其中:di=xi-yi表示两个排序之间的差值;
n:表示样本的大小,即机器学习算法的数量;
优点
缺点
积差相关
积差相关又称积距相关,是当两个变量都是正态连续变量,两者之间呈线性关系时,表示这两个变量之间的相关
使用条件
积差相关的使用条件是:
1、两变量为连续变量,即变量数值取自等距或等比量表。
2、两变量呈线性关系,这可由相关的散布图的形状来描述。
3、两变量为正态分布,或接近正态分布,至少是单峰对称的分布。
4、必须是成对数据,每对数据之间相互独立。
5、要排除共同因素的影响。如果两个变量都随着一个共同因素在变化,即使算出的积差相关系数很高,也难以判断两个变量之间存在高度相关。
6、样本容量大于30,计算出的积差相关系数才有意义。
python机器学习-乳腺癌细胞挖掘(博主亲自录制视频)https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share
微信扫二维码,免费学习更多python资源