数据降维 - 走看看

zoukankan html css js c++ java

数据降维
一、PCA：(principal component analysis)

　　1、为何需要PCA
　　2、PCA 的思想

　　　　将 n维特征映射到 k 维上（k<n），这 k 维是全新的特征，称为主元，是重新构造出来的 k 维特征，而不是简单地从 n 维特征中去除其余 n‐k 维特征

　　3、实例讲解过程

　　

x y

2.5 2.4

0.5 0.7

2.2 2.9

1.9 2.2

3.1 3.0

2.3 2.7

2 1.6

1 1.1

1.5 1.6

1.1 0.9

　　　　假设我们有2 维数据，行代表样例，列代表特征，这里有 10 个样例，每个样例两个特征

　　step1：求每个特征的均值，然后对于所有的样例，都减去对应的均值。这里 x 的均值是 1.81，y 的均值是 1.91，减去后得到

x-average(x) y-average(y)

0.69 0.49

-1.31 -1.21

0.39 0.99

0.09 0.29

1.29 1.09

0.49 0.79

0.19 -0.31

-0.81 -0.81

-0.31 -0.31

-0.71 -1.01

　　step2：求协方差矩阵，如果数据是 3 维，那么协方差矩阵是

　　　其中协方差公式为：

　　　

　　注：对角线上分别是 x 和 y 的方差，非对角线上是协方差。

　　　　l 协方差 > 0时，表示 x 和 y 若有一个增，另一个也增；

　　　　l 协方差 < 0时，表示一个增，一个减；

　　　　l 协方差 = 0 时，两者独立。

　　　　l 协方差绝对值越大，两者对彼此的影响越大，反之越小。

　　4.代码实例：
from sklearn.decomposition import PCA import numpy as np pca = PCA(n_components=2) X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]]) pca.fit(X) print(pca.explained_variance_ratio_)
　　还需要研究
查看全文

相关阅读:
版本控制
 1121 Reverse the lights(“玲珑杯”线上赛 Round #15 河南专场)
LightOJ 1055
LightOJ 1053
LightOJ 1052
4512 吉哥系列故事——完美队形I(LCIS)
ZOJ 2432-Greatest Common Increasing Subsequence
病毒（湖南省第八届大学生计算机程序设计竞赛）
1328 台球碰撞（湖南省第六届大学生计算机程序设计竞赛）
zzuli 1332 内部收益率（湖南省第六届大学生计算机程序设计竞赛）

原文地址：https://www.cnblogs.com/always-fight/p/8847403.html

x	y
2.5	2.4
0.5	0.7
2.2	2.9
1.9	2.2
3.1	3.0
2.3	2.7
2	1.6
1	1.1
1.5	1.6
1.1	0.9

x-average(x)	y-average(y)
0.69	0.49
-1.31	-1.21
0.39	0.99
0.09	0.29
1.29	1.09
0.49	0.79
0.19	-0.31
-0.81	-0.81
-0.31	-0.31
-0.71	-1.01