- 主成分分析:
有一个集合筛选出对这个集合影响较大的n个因素就是主成分分析。
主成分分析的目的是在于降维,其结果是把多个指标归约为少数的几个指标,这少数的几个指标的表现形式一般为原来指标体系中的某几个指标线性组合;逐步回归的目的是为了剔除影响目标值不显著的指标,其结果是保留原指标体系中影响显著的几个指标。
主成分分析本身往往并不是目的,而是达到目的的一种手段。因此,它多用在大型研究项目的某个中间环节。例如,把它用在多重回归中,便产生了主成分回归。另外,它还可以用于聚类、判别分析等。
- 变量的回归分析(例如R中的update和step):
例如在做线性回归时,逐步回归是为了找出影响目标值显著的特征。
在多重回归预测时,当自变量间高度相关时,某些回归参数的估计值极不稳定,甚至出现有悖常理、难以解释的情形。这时,可先采用主成分分析产生若干主成分,它们必定会将相关性较强的变量综合在同一个主成分中,而不同的主成分又是互相独立的。只要多保留几个主成分,原变量的信息不致过多损失。然后,以这些主成分为自变量进行多重回归就不会再出现共线性的困扰。如果原有p个自变量X1,X2,…,Xp,那么,采用全部p个主成分所作回归完全等价于直接对原变量的回归;采用一部分主成分所作回归虽不完全等价于对原变量的回归,但往往能摆脱某些虚假信息,而出现较合理的结果。
以上思路也适用于判别分析,当自变量高度相关时,直接作判别分析同样有多重共线性问题,可先计算自变量的主成分,然后通过主成分估计判别函数。如果变量不是很多可以直接回归分析(step),剔除冗余的变量。