根据学习方式分类:
有监督学习
分类:结果是离散的 http://blog.csdn.net/king523103/article/details/49128231
贝叶斯分类:对小规模的数据表现很好,适合多分类任务,适合增量式训练。对输入数据的表达形式很敏感。
knn:根据邻居投票
优点:1. 思想简单,理论成熟,既可以用来做分类也可以用来做回归;2. 可用于非线性分类;3. 训练时间复杂度为O(n);4. 准确度高,对数据没有假设,对outlier不敏感
缺点:1. 计算量大;2. 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);3. 需要大量的内存;
决策树:有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。
决策树ID3算法,该算法是一信息为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。
C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点,并在以下几方面对 ID3 算法进行了改进,其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效
基于主题模型的分类:特征,主题,文档三者之间的关系,跟普通分类有啥区别?不是两个文档词越相似,文档就越相关,两个文档可能属于同一类主题,但是他们包含的词差别很大,但是这些词都是和某一类主题强关联(条件概率),这样就能把文本上差别很大的文档分为相同主题;可以对文章计算出来一个主题;一个主题其实就是包含一些强关联的词
LDA
PLSA
逻辑回归Logistic Regression(LR):构造一个Cost函数(损失函数),找损失函数的最小值(对应的参数),一般使用梯度下降法(Gradient Descent)
Logistic回归优点:1、实现简单;2、分类时计算量非常小,速度很快,存储资源低;
缺点:1、容易欠拟合,一般准确度不太高;2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;
SVM:基于核函数,将特征升到高维空间,线性可分
SVM算法优点:可用于线性/非线性分类,也可以用于回归;低泛化误差;容易解释;计算复杂度较低
缺点:对参数和核函数的选择比较敏感;原始的SVM只比较擅长处理二分类问题(后来我们可以多训练一些分类器来解决这个问题)
Boosting:
找一些弱分类器(在某些方面分类效果好,但适应性差)按照一定权重组合在一起
优点:容易实现,分类准确率较高,没有太多参数可以调;不会过拟合
缺点:对outlier比较敏感;
回归:
结果是连续的
线性回归:梯度下降法,找损失函数最小值
无监督学习
聚类:http://blog.csdn.net/king523103/article/details/49128231
基于划分聚类算法(partition clustering):k-means等
基于层次聚类算法:
基于密度聚类算法:
基于网格的聚类算法
基于神经网络的聚类算法
基于统计学的聚类算法
应用:Apriori算法:推荐领域的关联规则推荐
半监督学习
强化学习