zoukankan      html  css  js  c++  java
  • 5.PCA

    一、预备知识

    减少过拟合的方法有:(1)增加数据 (2)正则化(3)降维

    维度灾难:从几何角度看会导致数据的稀疏性

    举例1:正方形中有一个内切圆,当维度D趋近于无穷大时,圆内的数据几乎为0,所有的数据集中于球外(空壳)

    举例2:圆内有个内圆,当维度D趋近于无穷大时,环形内的数据与外圆的数据比为1,说明所有的数据集中于环中(空壳)

    样本均值 & 样本方差的矩阵表示

    二、PCA:一个中心 + 两个基本点(最大投影方差、最小重构距离)

    1、最大投影方差角度

     

     

    2、最小重构代价角度

    3、SVD角度

     

     

    主成分分析(PCA):先得到方向(主成分),再得到坐标

    主坐标分析(PCoA):直接得到坐标

    4、概率角度(probabilistic PCA,P-PCA)

     

     GMM与P-PCA的区别在于,GMM的隐变量是离散的,而P-PCA的隐变量是连续的。

     5、PCA算法总结

    这里对PCA算法做一个总结。作为一个非监督学习的降维方法,它只需要特征值分解,就可以对数据进行压缩,去噪。因此在实际场景应用很广泛。为了克服PCA的一些缺点,出现了很多PCA的变种,比如为解决非线性降维的KPCA,还有解决内存限制的增量PCA方法Incremental PCA,以及解决稀疏数据降维的PCA方法Sparse PCA等。

    PCA算法的主要优点有:

    • 仅仅需要以方差衡量信息量,不受数据集以外的因素影响。 
    • 各主成分之间正交,可消除原始数据成分间的相互影响的因素。
    • 计算方法简单,主要运算是特征值分解,易于实现。

    PCA算法的主要缺点有:

    • 主成分各个特征维度的含义具有一定的模糊性,不如原始样本特征的解释性强。
    • 方差小的非主成分也可能含有对样本差异的重要信息,因降维丢弃可能对后续数据处理有影响。

    参考文献:

    【1】机器学习(28)【降维】之sklearn中PCA库讲解与实战

    【2】PCA的数学原理

    【3】PCA主成分分析学习总结

  • 相关阅读:
    Day01-基础加强笔记
    CS Academy Round#2 E.Matrix Coloring
    AtCoder ABC198 F
    NERC2021 B. Button Lock
    AtCoder ARC115 E
    NOI Online 2021 Round 1 提高组 愤怒的小 N
    洛谷 P6918 [ICPC2016 WF]Branch Assignment
    AtCoder ARC076 F
    Atcoder ABC155 F
    POJ 1966 Cable TV Network
  • 原文地址:https://www.cnblogs.com/nxf-rabbit75/p/10288375.html
Copyright © 2011-2022 走看看