zoukankan      html  css  js  c++  java
  • 机器学习第七堂课20210415

    无监督降维

    无监督有三类:降维、聚类、概率建模。

    本节课主要讲降维和聚类。PCA(主成分分析)

    降维的主要应用:一、数据可视化(Scatter plot)直接去掉某个维度会丢失大量数据信息。

    降维具有如下一些优点:

    • 1) 使得数据集更易使用。
    • 2) 降低算法的计算开销。
    • 3) 去除噪声。
    • 4) 使得结果容易理解。

     数据可视化(Scatter plot matrix散点图矩阵)适用于维度不是很大的数据。

    背景知识

    协方差矩阵:

    数据集两个维度之间的协方差

    降维的目的:图像处理、基因学。

    高维特征的问题:存在大量冗余的特征,降低了机器学习的性能;数据分布可视化问题;维度灾难。

     维度灾难:数据分布不符合直觉;不利于统计分析;影响机器学习性能。

    内在维度(intrinsic dimensionality)

    内在维度:表征数据变化的自由变量的个数。

    a)1维线性子空间(直线)

    b)1维非线性子空间(圆)

    c)1维非线性子空间--流形(抛物线)

    降维的算法有很多,比如奇异值分解(SDV)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)。

     PCA是线性降维的方法。

    MDA是非线性降维的方法。

    LDA算法是监督的降维。

    无监督的降维:数据没有类别标签。

    PCA的过程:

     

     线性降维:将d维的原始数据X = (x1,x2,x3,,,,,,xm)属于Rd*m

    线性投影到d' 维子空间Z = W的转置X

    投影矩阵:W属于R(d*d')降维后数据:Z属于R(d'*m)

    通常 d' <<d

     最佳的子空间(主成分):

    一、最小重构误差:数据样本到投影点的距离最近。

    二、方差最大化。数据样本的投影点之间尽可能分散。

    tr:矩阵的迹。方差最大,则tr需要max。

    最小重构误差和方差最大化的目标函数是等价的。

    PCA的优化算法:最小化式子,带有等式约束。

    对 等式约束 的目标函数使用拉格朗日乘子法 可以得到:

     协方差矩阵的意义:

    1、 特征值就是方差,需要最大化

     2、特征向量需要最小化,是最小重构误差。

    PCA的应用:

    1、数值计算

    2、特征脸:经过PCA得到脸部图像特征值,当主成分个数m>=100,重构图像很接近原始图像。

    参考链接:https://blog.csdn.net/program_developer/article/details/80632779

     https://blog.csdn.net/qq_38262266/article/details/100592330

    雪儿言
  • 相关阅读:
    现代软件工程 第一周博客作业
    现代软件工程 课题初步调研 在线即时评教系统
    php判断网页是否gzip压缩
    采集练习(五) php 获得chrome扩展 微度新标签页 下的云壁纸(主要是美女壁纸)
    <raspberry pi> raspberry pi 设置wlan 静态ip
    采集练习(三) php 采集当当网图书的数据(初版)
    采集练习(六) python获得chrome扩展 微度新标签页 下的云壁纸
    采集练习(七) php 获得电视节目预告(一周节目)
    采集练习(八) php 获得网易精彩跟贴数据
    采集练习(四) python 获得hao123导航图片分类下的美女图片
  • 原文地址:https://www.cnblogs.com/weixq351/p/14661233.html
Copyright © 2011-2022 走看看