box-cox解读

zoukankan html css js c++ java

box-cox解读
可以额外参考资料：https://blog.csdn.net/sinat_26917383/article/details/77864582，http://www.dataguru.cn/article-12380-1.html

　　由于线性回归是基于正态分布的前提假设，所以对其进行统计分析时，需经过数据的转换，使得数据符合正态分布。

　　Box 和 Cox在1964年提出的Box-Cox变换可使线性回归模型满足线性性、独立性、方差齐性以及正态性的同时，又不丢失信息。

　　Box-Cox变换是统计建模中常用的一种数据变换，用于连续的响应变量不满足正态分布的情况。在做线性回归的过程中，不可观测的误差可能是和预测变量相关，于是给线性回归的最小二乘法估计系数的结果带来误差，为了解决这样的方差齐性问题，所以考虑对相应因变量做Box-Cox变换，变换之后，可以一定程度上减小不可观测的误差和预测变量的相关性。但是选择的参数要适当，使用极大似然估计得到的参数，可以使上述过程的效果更好。当然，做过Box-Cox变换之后，方差齐性的问题不一定会消失，做过之后仍然需要做方差齐性的检验，看是否还需要采用其他方法。

1. 应用前提：

在做线性回归的过程中，一般线性模型假定； Y=Xβ + ε，其中ε满足正态分布，但是利用实际数据建立回归模型时，个别变量的系数通不过。例如往往不可观测的误差 ε 可能是和预测变量相关的，不服从正态分布，于是给线性回归的最小二乘估计系数的结果带来误差，为了使模型满足线性性、独立性、方差齐性以及正态性，需改变数据形式，故应用box-cox转换。

2. 和其他处理方法的比较：

对于非正太数据的转换方法有：

在一些情况下（P值<0.003）上述方法很难实现正态化处理，所以优先使用Box-Cox转换，但是当P值>0.003时两种方法均可，优先考虑普通的平方变换。

Box-Cox推导公式见参考，这里可用sklearn、SAS等实现。

3. 结论
- 使用Box-Cox变换后的数据得到的回归模型优于变换前的模型，变换可以使模型的解释力度等性能更加优良。
- 变换后的残差可以更好的满足正态性、独立性等假设前提，降低了伪回归的概率。
- 使用Box-Cox变换族一般可以保证将数据进行成功的正态变化，但在二分变量或较少水平的等级变量的情况下，不能成功进行转换，此时可以考虑使用广义线性模型，例如logistic模型、johson转换等。
注：关于P值：

假设检验中常见到P值( P-Value，Probability，Pr)，P值是进行检验决策的另一个依据。

P值即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值，一般以P < 0.05 为有统计学差异， P<0.01 为有显著统计学差异，P<0.001为有极其显著的统计学差异。其含义是样本间的差异由抽样误差所致的概率小于0.05 、0.01、0.001。实际上，P值不能赋予数据任何重要性，只能说明某事件发生的几率。统计结果中显示Pr > F，也可写成Pr( >F)，P = P{ F0.05 > F}或P = P{ F0.01 > F}。统计学上一般P值大于0.05我们可认为该组数据是符合正态分布。
查看全文

相关阅读:
LRUK算法例子
 php socket编程入门例子
 之前做的一个leetcode的题目记录下(留个纪念)
php防范时序攻击的办法
 python使用es的例子(记录下)
mysql随机抽取一定数量的记录
 go module包管理学习笔记
 nginx location匹配规则
 解决go get卡住的问题(转)
supervisor 学习笔记(转)

原文地址：https://www.cnblogs.com/triple-y/p/11244798.html

1. 应用前提：

2. 和其他处理方法的比较：

3. 结论

注：关于P值：