zoukankan      html  css  js  c++  java
  • PCA与LDA

     一、为什么要降维:

      1、避免维数灾难,高维情况下容易产生过拟合

      2、特征之间如果存在明显的相关性(也叫共线性),此时就需要降维

      3、降维可以提取数据中的有效信息,去除噪音数据

      4、降维可以降低数据的复杂性,减少模型的训练时间

      5、可以方便对数据进行可视化处理,因为维数很高的话,无法可视化

    二、PCA降维思想

      寻找某个轴线,使得样本映射到该轴线后,能够有最大的可区分度,衡量可区分度的指标就是求方差,现在的问题是如何求得这个轴线,使方差最大。

      用方差来定义样本间的间距,方差越大表示数据越稀松,方差越小则表示数据分布越密集,下图即方差公式。

      

     

    在求解最大方差前,为方便计算,可先对数据进行去均值处理。

      去均值后,求最大方差公式可以减少计算的复杂度。

      求满足最大方差的轴线可用梯度上升法求解。

     

      PCA和LDA都是降维算法,他们的主要区别是:

      PCA为无监督方法,主要是主成分分析方法,Principal Component Analysis, 简称PCA。

    PCA可以降到任意维度。

      LDA是有监督方法,主要是线性判别分析法,Linear Discriminant Analysis ,简称LDA。

    LDA最多只能降到数据类别 -1

     

  • 相关阅读:
    最难的事
    性格决定命运,习惯决定未来
    系统构架师之路
    时间是经不起浪费的
    如何投资自己,增加自身价值!
    最好的程序员大多是自学成才的
    杂记
    Win7启动Oracle出错
    推荐代码生成器工具排行
    Hibernate 与 Oracle 11g 的问题
  • 原文地址:https://www.cnblogs.com/baoxuhong/p/10261579.html
Copyright © 2011-2022 走看看