zoukankan      html  css  js  c++  java
  • 机器学习概要

    根据学习方式分类:

      有监督学习

        分类:结果是离散的  http://blog.csdn.net/king523103/article/details/49128231

          贝叶斯分类:对小规模的数据表现很好,适合多分类任务,适合增量式训练。对输入数据的表达形式很敏感。

          knn:根据邻居投票

            优点:1. 思想简单,理论成熟,既可以用来做分类也可以用来做回归;2. 可用于非线性分类;3. 训练时间复杂度为O(n);4. 准确度高,对数据没有假设,对outlier不敏感

            缺点:1. 计算量大;2. 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);3. 需要大量的内存;

          决策树:有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

            决策树ID3算法,该算法是一信息为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。

            C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点,并在以下几方面对 ID3 算法进行了改进,其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效

          基于主题模型的分类:特征,主题,文档三者之间的关系,跟普通分类有啥区别?不是两个文档词越相似,文档就越相关,两个文档可能属于同一类主题,但是他们包含的词差别很大,但是这些词都是和某一类主题强关联(条件概率),这样就能把文本上差别很大的文档分为相同主题;可以对文章计算出来一个主题;一个主题其实就是包含一些强关联的词

            LDA

            PLSA

          逻辑回归Logistic Regression(LR):构造一个Cost函数(损失函数),找损失函数的最小值(对应的参数),一般使用梯度下降法(Gradient Descent)

            Logistic回归优点:1、实现简单;2、分类时计算量非常小,速度很快,存储资源低;

            缺点:1、容易欠拟合,一般准确度不太高;2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;

          SVM:基于核函数,将特征升到高维空间,线性可分

              SVM算法优点:可用于线性/非线性分类,也可以用于回归;低泛化误差;容易解释;计算复杂度较低

            缺点:对参数和核函数的选择比较敏感;原始的SVM只比较擅长处理二分类问题(后来我们可以多训练一些分类器来解决这个问题)

          Boosting:

            找一些弱分类器(在某些方面分类效果好,但适应性差)按照一定权重组合在一起

            优点:容易实现,分类准确率较高,没有太多参数可以调;不会过拟合

            缺点:对outlier比较敏感; 

        回归:

          结果是连续的

          线性回归:梯度下降法,找损失函数最小值

          

      无监督学习

        聚类:http://blog.csdn.net/king523103/article/details/49128231

          基于划分聚类算法(partition clustering):k-means等

          基于层次聚类算法:

          基于密度聚类算法:

          基于网格的聚类算法

          基于神经网络的聚类算法

          基于统计学的聚类算法

          应用:Apriori算法:推荐领域的关联规则推荐

      半监督学习

      

      强化学习


      

  • 相关阅读:
    Linux内存分析
    mysql 分表
    安装YCM
    c/c++ 之静态库
    ubuntu20 宽带连接
    数据对齐
    计算机中浮点数的表示
    整数的表示
    信息的储存
    SparseTable ST表
  • 原文地址:https://www.cnblogs.com/brainstorm/p/7844710.html
Copyright © 2011-2022 走看看