计算过程参考:《机器学习——主成分分析(PCA)》
代码:
X = np.array([[-1, -2], [-1, 0], [0, 0], [2, 1], [0, 1]])
print(X)
def PCA(X,n):
#转置
X = np.transpose(X)
#求特征的均值
X_mean = np.mean(X,axis =1) # 计算每一行的均值
X = X - X_mean.reshape(-1,1)
#求协方差
cov_mat = 1.0/(X.shape[1])*np.dot(X,X.T)
# 将协方差进行特征值分解 第一个返回值是特征值矩阵,第二个返回值是特征向量矩阵
values,vectors = np.linalg.eig(cov_mat)
print(values)
print(vectors)
# 按特征值将特征向量进行排序
# 拼接一个特征值和特征向量一起的矩阵
eig_mat = [(np.abs(values[i]),vectors[:,i]) for i in range(len(X))]
print(eig_mat)
# 排序
eig_mat.sort(reverse=True)
# 拼接WT矩阵 降维后的权重矩阵,只保留要保留的列
WT = np.array([_[1] for _ in eig_mat[:n]])
print(WT)
# 对X进行转换,降维
return np.dot(WT,X)
n=1
PCA(X,n)