zoukankan      html  css  js  c++  java
  • Linear Discriminant Analysis Algorithm

    线性判别分析算法。

    逻辑回归是一种分类算法,传统上仅限于两类分类问题。

    如果有两个以上的类,那么线性判别分析算法是首选的线性分类技术。LDA的表示非常直接。它包括数据的统计属性,为每个类计算。对于单个输入变量,这包括:

    • 每个类的平均值。
    • 在所有类中计算的方差。

    通过计算每个类的判别值并对具有最大值的类进行预测,可以做出预测。

                                      

     

     基本计算方法:

     

    该方法假定数据具有高斯分布(钟形曲线),因此,最好先从数据中删除异常值。这是一种简单而强大的分类预测建模问题的方法。

     

    判别分析的典型例子是线性判别分析(Linear discriminant analysis),简称LDA。(这里注意不要和隐含狄利克雷分布(Latent Dirichlet allocation)弄混,虽然都叫LDA但说的不是一件事。)

    LDA的核心思想是把高维的样本投射(project)到低维上,如果要分成两类,就投射到一维。要分三类就投射到二维平面上。这样的投射当然有很多种不同的方式,LDA投射的标准就是让同类的样本尽量靠近,而不同类的尽量分开。对于未来要预测的样本,用同样的方式投射之后就可以轻易地分辨类别了。

    使用情景:

    • 判别分析适用于高维数据需要降维的情况,自带降维功能使得我们能方便地观察样本分布。它的正确性有数学公式可以证明,所以同样是很经得住推敲的方式。
    • 但是它的分类准确率往往不是很高,所以不是统计系的人就把它作为降维工具用吧。
    • 同时注意它是假定样本成正态分布的,所以那种同心圆形的数据就不要尝试了。

     

    更多可以参考:https://www.cnblogs.com/pinard/p/6244265.html

  • 相关阅读:
    Hadoop启动脚本分析
    java基础-Idea开发工具介绍
    Hadoop集群-HDFS集群中大数据运维常用的命令总结
    Hadoop部署方式-高可用集群部署(High Availability)
    Hadoop部署方式-完全分布式(Fully-Distributed Mode)
    Hadoop部署方式-伪分布式(Pseudo-Distributed Mode)
    Hadoop部署方式-本地模式(Local (Standalone) Mode)
    Hadoop基础原理
    Java基础-DBCP连接池(BasicDataSource类)详解
    nc命令的常用参数介绍
  • 原文地址:https://www.cnblogs.com/ytxwzqin/p/9024257.html
Copyright © 2011-2022 走看看