机器学习（二十）— 常见统计学习方法总结（一）

zoukankan html css js c++ java

机器学习（二十）— 常见统计学习方法总结（一）

1、判别模型和生成模型总结

　　判别方法：由数据直接学习决策函数 Y = f（X），或者由条件分布概率 P（Y|X）作为预测模型，即判别模型。

　　生成方法：由数据学习联合概率密度分布函数 P（X,Y）,然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型。

　　由生成模型可以得到判别模型，但由判别模型得不到生成模型。

　　常见的判别模型有：K近邻、SVM、决策树、感知机、线性判别分析（LDA）、线性回归、传统的神经网络、逻辑斯蒂回归、boosting、条件随机场

　　常见的生成模型有：朴素贝叶斯、隐马尔可夫模型、高斯混合模型、文档主题生成模型（LDA）、限制玻尔兹曼机

　　判别模型都要用到核函数，要把正负样本区分开，那势必会遇到区分不开的情形，这时就要用到核函数了

2、概率、非概率模型

　　非概率模型：是直接学习输入空间到输出空间的映射h，学习的过程中基本不涉及概率密度的估计，概率密度的积分等操作，问题的关键在于最优化问题的求解。

　　非概率模型有：感知机、k近邻、支持向量机、神经网络。线性支持向量机可以显式地写出损失函数——hinge损失。神经网络也可以显式地写出损失函数——平方损失。

　　概率模型有：朴素贝叶斯、逻辑斯特回归（因为输出是概率值）、高斯判别分析。

3、参数、非参数模型

　　如果我们对所要学习的问题有足够的认识，具备一定的先验知识，此时我们一般会假定要学习的目标函数f(x)或分布P(y|x)的具体形式。然后，通过训练数据集，基于ERM、SRM、MLE、MAP等学习策略，可以估计出f(x)或P(y|x)中含有的未知参数。

　　一旦未知参数估计完毕，训练数据一般来说，就失去其作用了，因为这些估计出来的参数就是训练数据的浓缩。通过这种方式建立起来的模型就是参数模型。

　　参数模型有：感知机、逻辑斯特回归、高斯判别分析、朴素贝叶斯、线性支持向量机，神经网络。

　　非参数模型有：实际上，非参数模型中一般会含有一个或多个超参数，外加无穷多个普通的参数。k近邻就是典型的非参数模型。

　　非参数模型：当我们对所要学习的问题知之甚少，此时我们一般不会对潜在的模型做过多的假设。在面对预测任务的时候，我们通常会用上所有的训练数据。

4、几种算法区别

EM算法：只有观测序列，无状态序列时来学习模型参数，即Baum-Welch算法

维特比算法：用动态规划解决HMM的预测问题，不是参数估计

前向后向：用来算概率

极大似然估计：即观测序列和相应的状态序列都存在时的监督学习算法，用来估计参数

注意的是在给定观测序列和对应的状态序列估计模型参数，可以利用极大似然发估计。如果给定观测序列，没有对应的状态序列，才用EM，将状态序列看不不可测的隐数据。

5、隐马尔可夫模型三个基本问题以及相应的算法

　　*1 概率（评估）问题： 前向算法
　　*2 预测（解码）问题： Viterbi算法
　　*3 学习（模型）问题： Baum-Welch算法(向前向后算法)

查看全文

相关阅读:
12-单表查询
 11-数据的增删改
 10-外键的变种三种关系
 09-完整性约束
 08-数据类型(2)
07-数据类型
 06-表的操作
 05-库的操作
 Spring:(六) 代理模式
 Spring:(五) 注解

原文地址：https://www.cnblogs.com/eilearn/p/9286252.html