zoukankan      html  css  js  c++  java
  • 机器学习第七堂课20210415

    无监督降维

    无监督有三类:降维、聚类、概率建模。

    本节课主要讲降维和聚类。PCA(主成分分析)

    降维的主要应用:一、数据可视化(Scatter plot)直接去掉某个维度会丢失大量数据信息。

    降维具有如下一些优点:

    • 1) 使得数据集更易使用。
    • 2) 降低算法的计算开销。
    • 3) 去除噪声。
    • 4) 使得结果容易理解。

     数据可视化(Scatter plot matrix散点图矩阵)适用于维度不是很大的数据。

    背景知识

    协方差矩阵:

    数据集两个维度之间的协方差

    降维的目的:图像处理、基因学。

    高维特征的问题:存在大量冗余的特征,降低了机器学习的性能;数据分布可视化问题;维度灾难。

     维度灾难:数据分布不符合直觉;不利于统计分析;影响机器学习性能。

    内在维度(intrinsic dimensionality)

    内在维度:表征数据变化的自由变量的个数。

    a)1维线性子空间(直线)

    b)1维非线性子空间(圆)

    c)1维非线性子空间--流形(抛物线)

    降维的算法有很多,比如奇异值分解(SDV)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

     PCA是线性降维的方法。

    MDA是非线性降维的方法。

    LDA算法是监督的降维。

    无监督的降维:数据没有类别标签。

    PCA的过程:

     

     线性降维:将d维的原始数据X = (x1,x2,x3,,,,,,xm)属于Rd*m

    线性投影到d' 维子空间Z = W的转置X

    投影矩阵:W属于R(d*d')降维后数据:Z属于R(d'*m)

    通常 d' <<d

     最佳的子空间(主成分):

    一、最小重构误差:数据样本到投影点的距离最近。

    二、方差最大化。数据样本的投影点之间尽可能分散。

    tr:矩阵的迹。方差最大,则tr需要max。

    最小重构误差和方差最大化的目标函数是等价的。

    PCA的优化算法:最小化式子,带有等式约束。

    对 等式约束 的目标函数使用拉格朗日乘子法 可以得到:

     协方差矩阵的意义:

    1、 特征值就是方差,需要最大化

     2、特征向量需要最小化,是最小重构误差。

    PCA的应用:

    1、数值计算

    2、特征脸:经过PCA得到脸部图像特征值,当主成分个数m>=100,重构图像很接近原始图像。

    参考链接:https://blog.csdn.net/program_developer/article/details/80632779

     https://blog.csdn.net/qq_38262266/article/details/100592330

    雪儿言
  • 相关阅读:
    上采样和下采样
    二、决策树算法
    一、实现贝叶斯算法
    Centos7 安装vscode
    Centos安装IDEA
    Centos设置自带中文输入法
    Centos 安装mysql
    Centos,tomcat
    Centos 7 安装JDK
    Centos7 安装rar,unrar,zip,unzip
  • 原文地址:https://www.cnblogs.com/weixq351/p/14661233.html
Copyright © 2011-2022 走看看