1.监督学习(分类/预测)
数据集中对象的类标记已知
通过类标记的指导下学习数据中的模式
利用获取的模式或者模型对新数据进行分类预测
2.模型分类
2.1 生成模型
希望从数据中学习/还原出原始的真实数据生成模型。
常见的方法是学习数据的联合概率分布。
E.g 朴素贝叶斯方法、隐马尔科夫模型等
当容量大时,生成模型容易接近真实模型
能处理具有隐含变量的情景
2.2 判别模型
从数据中学习到不同类概念的区别从而进行分类。
如KNN,SVM, ANN, Decision Tree, etc.
速度快、准确率较高
3.对比分类和预测
分类和预测是监督学习中的两种主要类型
分类:
预测分类标号(或离散值)
根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据
预测:
建立连续函数值模型,预测未来的情况、连续值或趋势,比如预测空缺值
回归分析、数值预测常常作为同义词混用
分类的算法:
1.朴素贝叶斯
在概率论和统计学中,Bayes’ theorem(贝叶斯法则)根据事件的先验知识描述事件的概率。贝叶斯法则表达式如下所示:
P(A|B)=(P(B|A)P(A))/ p(B)
P(A|B) – 在事件B下事件A发生的条件概率
P(B|A) – 在事件A下事件B发生的条件概率
P(A), P(B) – 独立事件A和独立事件B的边缘概率
2.回归
2.1 线性回归