一:参考资料
(一)机器学习基础---无监督学习之降维
(二)机器学习作业---主成分分析PCA
(三)PCA的数学原理(墙)
(四)numpy.linalg,eig(a)函数
(五)numpy.linalg.svd函数
二:代码实现
import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): data = np.loadtxt(filename) return data def pca(dataArr,topNfeat=9999999): #以前使用svd分解,这里直接去求特征值和特征向量 """ :param dataArr: 传入的数据集 :param topNfeat: 可选参数,表示应用的特征 """ meanV = np.mean(dataArr,0) meanRem = dataArr - meanV covArr = np.cov(meanRem,rowvar=0) #获取协方差矩阵 eigVals,eigVects = np.linalg.eig(covArr) #求解特征值和特征向量矩阵 eigValsInd = np.argsort(eigVals)[::-1] #默认获取小到大值,::-1求其逆向 eigValsInd = eigValsInd[:topNfeat] #获取最大N个值 #上面获取了特征值索引,下面获取特征向量 redEigVects = eigVects[:,eigValsInd] #新的特征向量矩阵 #降维 lowDDataArr = meanRem@redEigVects #pca降维 reconArr = lowDDataArr@redEigVects.T+meanV #pca还原,因为redEigVects.T即为redEigVects的逆矩阵,所以这里说进行还原操作 return lowDDataArr,reconArr data = loadDataSet("testSet.txt") lowD,reconArr = pca(data,1) print(lowD.shape) plt.figure() plt.scatter(data[:,0],data[:,1],marker="^",s=90) plt.scatter(reconArr[:,0],reconArr[:,1],marker="o",c="r",s=50) plt.show()