zoukankan      html  css  js  c++  java
  • LDA(Linnear Discriminant analysis)

    LDAFLD(Fisher linear discriminant)在统计中都是用来寻找特征的某种线性组合,该组合变量可以作为分类的依据,也可以用于数据集的将维处理,为进一步的分类作准备。

    LDA与方差分析 ANOVA及回归分析都是用其他特征或测量值的线性组合来表达一个因变量。不同的是,LDA中涉及的因变量是“分类变量”(如类标号),而后两者都是指具体的数值。

    LDA、主元分析( principal component analysis)和因子分析( factor analysis )都致力于用变量的线性组合来解释数据。但是 LDA 更侧重于对不同类数据之间的差别进行建模,而 PCA 却没有考虑类之间的区别,相比于相似性来说,因子分析考虑更多的是类间区别。判据分析(Discriminant analysis)和因子分析有一点是明显不同的:独立变量和因变量必须严格区分。

      LDA在处理类属变量时可以由Discriminant Correspondence Analysis 来替代。

     

    LDA两类分类器

      设观测向量x (也被称作特征、属性、变量、测量值等) 对于对象或事件的每一个采样的所属类y都是已知的。这样的样本集称作训练集。所谓的分类问题就是指对于相同分布的样本x(可以是训练集以外的样本),都能预知其所属的类。

    假设条件概率密度函数 p(\vec x|y=1)p(\vec x|y=0)都是正态分布的,具有相同的满秩协方差矩阵Σy = 0 = Σy = 1 = Σ

    于是,p(y| \vec x) 依赖于点积\vec w \cdot \vec x ,其中

    \vec w = \Sigma^{-1} (\vec \mu_1 - \vec \mu_0)

    也就是说,输入x 所属的类就完全由已知观测值所决定的这样一

    也就是说,输入x 所属的类就完全由已知观测值所决定的这样一个线性函数决定。

      对于协方差矩阵不相同的情形,采用二阶判别分析

     

    Fisher线性判别

    FLDLDA在实际应用中往往是可以互换的,尽管Fisher的最初的文章《The Use of Multiple Measures in Taxonomic Problems (1936)LDA略微有些差别:没有做出类的正态分布和相同的协方差矩阵这样的假设。

    假设两类观测值的均值为 \vec \mu_{y=0}, \vec \mu_{y=1} ,协方差矩阵为Σy = 0y = 1。那么特征的线性组合 \vec w \cdot \vec x的均值就是 \vec w . \vec \mu_{y=i} ,而方差为\vec w^T \Sigma_{y=i} \vec w ,其中i = 0,1Fisher定义了这样一个表达可分性的比值,由类间方差比上类内方差得到:

    ?/P>

    S=\frac{\sigma_{between}^2}{\sigma_{within}^2}= \frac{(\vec w \cdot \vec \mu_{y=1} - \vec w \cdot \vec \mu_{y=0})^2}{\vec w^T \Sigma_{y=1} \vec w + \vec w^T \Sigma_{y=0} \vec w} = \frac{(\vec w \cdot (\vec \mu_{y=1} - \vec \mu_{y=0}))^2}{\vec w^T (\Sigma_{y=0}+\Sigma_{y=1}) \vec w}这种度量和信噪比是类似的。当最大可分时满足:

    \vec w = (\Sigma_{y=0}+\Sigma_{y=1})^{-1}(\vec \mu_{y=1} - \vec \mu_{y=0}) 
    当满足LDA的假设条件时,上式和LDA是等价的。

    实际应用

    在应用中,各类的均值和方差是未知的。但是这些都是可以通过训练集估计求得。采用最大似然估计或最大后验概率准则,用估计值来取代前面等式中的真实值。尽管协方差的估计是在某种意义下最优的,但并意味着其所有可能的取值都能得到最佳的分类效果,即使正态分布的假设是成立的。
    LDAFisher判别法在实际应用的过程中,实际处理的观测变量超过样本的数目。在这种情况下,协方差阵是奇异的,不能直接求逆。当然,有许多方法可以解决这个问题。

    1、      广义逆矩阵
    2、      正则判别分析,即在现有样本的基础上,通过增加白噪声的方法构造新的样本,这些新的样本并没有真正意义上的参加计算,在数学上可以得到协方差阵:
           Cnew = C + σ2I

        其中I为单位阵,σ 是所加噪声的标准差,并被称作是正则参数。选择合适的σ使得训练集成为最佳的交互证实集。获得的新的方差矩阵是可逆的,可以用来代替上式中的方差矩阵。
        同样,在许多的应用场合中,LDA并不太适用。LDAFisher判别法可以通过核函数扩展为非线性分类的情形。通常是将原始观测变量映射到更高维的非线性空间。非线性空间的线性分类和线性空间的非线性分类是等价的。一个典型的例子就是Fisher核判别法。
        LDA可以扩展为多类判别方法,其中c是类属变量,可以取N个值,而不是两个。类似的,条件密度函数是正态的,具有相同的方差。P(c|\vec x)N个投影值对p(\vec x|c=i)而言,是一个充分统计量,是由N个均值生成的子空间,方差矩阵的逆矩阵的仿射投影。这些投影的求解可以看作是广义特征值的求解问题。其中分子是各个类的方差矩阵,分母是所有类共有的方差矩阵。 





    (译自http://www.answers.com/topic/linear-discriminant-analysis)


    转自http://blog.sina.com.cn/s/blog_4388babc010007jb.html
  • 相关阅读:
    BCrypt 加密实现
    Java AES512加密算法
    二、 Mosquitto 使用说明
    一、Mosquitto 介绍&安装
    ConcurrentHashMap源码分析(JDK8版本<转载>)
    详解设计模式六大原则(转载)
    Java 单例模式详解(转)
    一致性哈希算法(consistent hashing)(转载)
    Java并发之AQS详解(转)
    数据库(第一范式,第二范式,第三范式)(转)
  • 原文地址:https://www.cnblogs.com/ysjxw/p/1127915.html
Copyright © 2011-2022 走看看