zoukankan      html  css  js  c++  java
  • 初识机器学习——吴恩达《Machine Learning》学习笔记(十四)

    降维(Dimensionality Reduction)

    目标一:数据压缩(Motivation I:Data Compresstion)

    降维——另一种无监督学习的方法。如,数据从三维降到二维(3D-2D)、从二维降到一维(2D-1D)。

    数据压缩的目的:减少内存空间的占用;加快算法运行速度。

    目标二:数据可视化(Motivation II:Data Visualization)

    通过把数据从50维、100维甚至更高维度,降低到二维、三维等来进行数据可视化分析,从而更好地分析数据。

    主成分分析问题规划(Principal Component Analysis probrem formulation)

    对于降维问题,目前最流行的方法是一个叫主成分分析方法(PCA)的算法。

    主成分分析方法:在PCA之前,一般需要对数据进行均值归一化、特征规范化。PCA方法,找到一个低维平面,对数据进行投影(90度投影或正交投影),以及最小化每个点与投影对应点之间的距离的平方值。

    注意:PCA方法不是线性回归。

    PCA方法:点与投影点之间的垂直距离

    线性回归:点与直线的竖直距离(沿Y轴方向)

    主成分分析算法(Principal Component Analysis algorithm)

    数据预处理——特征缩放/均值归一化

    均值归一化:使得替换后的数据均值为0

    PCA算法

    PCA算法——获取U中前k列

    PCA算法总结

    主成分参数的选择(Choosing the number of principal component)

    计算预测误差平方和的均值

    数据集的总变动

    选择最小的k值以满足方差要求

    另一种方法计算K值

    以上总结

    应用PCA的建议(Advice for applying PCA)

    在监督学习中,用来提高速度。注意,数据只能在training set 时进行Mapping,但是可以用在交叉验证集和测试集上。

    应用PCA来压缩数据或者可视化——提高算法效率以及降低硬盘内存的消耗

    注意:不用尝试使用PCA来降低过拟合!降低过拟合应该使用正则化!

    不要解决一个算法问题时,一上来就把PCA列在计划的首选中。而是,一开始就不应该考虑PCA,只有在需要提高算法运行速度或者减低内存时才应该考虑

  • 相关阅读:
    Effective C++学习笔记:确定基类有虚析构函数
    WPF和Silverlight程序中DispatcherTimer与Timer的区别
    2011.12.23
    WP7里的JSON解析
    2011.11.16
    2011.12.21
    2011.11.18
    2011.11.17
    2011.11.24
    WebClient does not support concurrent I/O operations 错误的解决办法
  • 原文地址:https://www.cnblogs.com/haifengbolgs/p/9507220.html
Copyright © 2011-2022 走看看