主成分分析(PCA)简介及sklearn参数

zoukankan html css js c++ java

主成分分析(PCA)简介及sklearn参数
1. PCA简介

　　PCA作为降维最重要的方法之一，在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。PCA的思想就是将高维数据投影到低维，一般基于两个标准选择投影方向：
- 基于最小投影距离
　　　　样本点到投影超平面的距离足够近
- 基于最大投影方差
　　　　样本点投影在超平面上的方差足够大，能够竟可能的分开，即方差最大方向的分解

　　ps：什么情况下需要进行降维？

　　　　数据集特征数较多，导致数据在每个特征维度上的分布稀疏；

　　　　特征自相关。

2.PCA算法流程

　　　　1) 对所有的样本进行中心化：样本的每个特征减去该特征均值； $x^{(i)} = x^{(i)} - \frac{1}{m} \sum_{j = 1}^{m} x^{(j)}$

　　　　2) 计算样本的协方差矩阵； $X X^{T}$

　　　　3) 对协方差矩阵 $X X^{T}$

　　　　4) 取出最大的n'个特征值对应的特征向量， $(w_{1}, w_{2}, . . ., w_{n^{'}})$

　　　　5) 用特征向量矩阵乘以样本集中的每一个样本 $x^{(i)}$

$x^{(i)}$ $x^{(i)}$ $x^{(i)}$

$x^{(i)}$

$x^{(i)}$

$x^{(i)}$
- $x^{(i)}$
  
  $x^{(i)}$
  
  $x^{(i)}$
  
  $x^{(i)}$
$x^{(i)}$

$x^{(i)}$

$x^{(i)}$
- $x^{(i)}$
  
  $x^{(i)}$
  
  $x^{(i)}$
  
  $x^{(i)}$
$x^{(i)}$ n_components == 'mle'时，需要和参数svd_solver一起使用，且svd_solver需要选择 'full' 参数；即pca = PCA(n_components = 'mle',svd_solver='full')；同时要保证输入数据的样本数多于特征数才可执行成功。

　　另外，有两个PCA类的成员值得关注。第一个是explained_variance_，它代表降维后的各主成分的方差值，方差值越大，则说明越是重要的主成分。第二个是explained_variance_ratio_，它代表降维后的各主成分的方差值占总方差值的比例，这个比例越大，则越是重要的主成分。

参考：https://www.cnblogs.com/pinard/p/6239403.html

$x^{(i)}$

　　
查看全文

相关阅读:
92 log4j日志记录
 35 反射封装占位
 34 jdbc工具封装
 33 mysql约束的增删
 32 Dao层和impl层
 31 jdbc查询，javaBean引入
 30 jdbc事务设置
 29 jdbc连接带数据操作模板（直接复制来用）
28 jdbc驱动包导入java项目及连接数据库流程
 27 MySQL与Oracle在语法上的一些不同点

原文地址：https://www.cnblogs.com/solong1989/p/9681788.html