zoukankan html css js c++ java

PCA简单实现

'''
总结一下PCA的算法步骤：
  设有m条n维数据。
  1）将原始数据按列组成n行m列矩阵X
  2）将X的每一行（代表一个属性字段）进行零均值化，即减去这一行的均值
  3）求出协方差矩阵C=1/m*(XX^T)
  4）求出协方差矩阵的特征值及对应的特征向量
  5）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前k行组成矩阵P
  6）Y=PX即为降维到k维后的数据
  # http://blog.codinglabs.org/articles/pca-tutorial.html
  # https://zhuanlan.zhihu.com/p/37777074
'''
import numpy as np
# 1. 如果原始数据是按照行排列的：
'''
def PCA(original_X,componens_k):
  # 1. 首先获得原始数据X的均值，如果数据按照行排列，特征按照列排列，则axis=0; 否则axis=1
  norm_X = X - np.mean(original_X,axis=0) # 去均值之后的数据X
  # 2. 计算协方差矩阵，由于散列矩阵和协方差矩阵仅相差一个系数，对特征向量的求解不影响，因此可以不加系数
  scatter_matrix = np.dot(np.transpose(norm_X),norm_X) # 由于这里数据是按照列排布的，所以C = X^T·X
  # 3. 计算协方差矩阵(散列矩阵)的特征值和特征向量
  eig_val, eig_vec = np.linalg.eig(scatter_matrix)
  # 4. 将各自的各自的特征值和特征向量绑定在一起按照从大到小的顺序排列
  eig_pairs = [(np.abs(eig_val[i]), eig_vec[:, i]) for i in range(X.shape[1])]
  eig_pairs.sort(reverse=True)
  # 5. 按照特征值从大到小的排列顺序得到的特征向量，取前K行组合成降维矩阵P
  dim_re_matrix = np.array([ele[1] for ele in eig_pairs[:componens_k]])
  dim_re_data = np.dot(norm_X,np.transpose(dim_re_matrix))
  return dim_re_data
'''

# 2. 如果原始数据是按照列排列的：
def PCA(original_X,componens_k):
  original_X = np.transpose(original_X) # 原始数据是行排列的，这里使用转置将其转化为列排列进行试验
  norm_X = original_X - np.mean(original_X,axis=1,keepdims=True)
  covariance_matrix = (1 / norm_X.shape[1]) * np.dot(norm_X,np.transpose(norm_X))
  eig_val, eig_vec = np.linalg.eig(covariance_matrix)
  eig_pairs = [(np.abs(eig_val[i]),eig_vec[:,i]) for i in range(norm_X.shape[0])]
  eig_pairs.sort(reverse=True)
  dim_re_matrix = np.array([ele[1] for ele in eig_pairs[:componens_k]])
  dim_re_data = np.dot(dim_re_matrix,norm_X)
  return dim_re_data # [[-2.12132034 -0.70710678  0.          2.12132034  0.70710678]]


# 3. 使用sklearn的PCA
'''
from sklearn.decomposition import PCA
import numpy as np
def PCA_(original_X,components_k):
  pca = PCA(n_components=1)
  pca.fit(original_X)
  return pca.transform(original_X)
'''


if __name__ == '__main__':
  X = np.array([[-1, -2], [-1, 0], [0, 0], [2, 1], [0, 1]])
  # X = np.array([[-1, 1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
  print(PCA_(X, 1))

查看全文

相关阅读:
v-if和v-show的区别
 关于C语言静态链接的个人理解，欢迎指正
 关于C语言中的强符号、弱符号、强引用和弱引用的一些陋见，欢迎指正
 Android: ScrollView监听滑动到顶端和底端
 Android小记之--ClickableSpan
Android小记之--android:listSelector
表达式参数
 Http和Socket连接
 Hibernate: merge方法
 Android小代码——设置全屏

原文地址：https://www.cnblogs.com/Stoner/p/10535645.html