本博客主要摘录了《机器学习实战》里面对各个算法的总结
K-近邻算法
优点
精度高、对异常值不敏感、无数据输入假定
缺点
计算复杂度高、空间复杂度高
适用范围
数值型和标称型
决策树
优点
计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据
缺点
可能会产生过度匹配的问题
适用范围
数值型和标称型
朴素贝叶斯
优点
在数据较少的情况下仍然有效,可以处理多类别问题
缺点
对于输入数据的准备方式比较敏感
适用范围
标称型数据
逻辑回归
优点
计算代价不高,容易理解和实现
缺点
容易欠拟合,分类精度可能不高
适用范围
数值型和标称型数据
支持向量机
优点
泛化错误率低,计算开销不大,容易解释
缺点
对参数调节和核函数的选择敏感,原始分类器不加修饰仅适用于处理二类问题
适用范围
数值型和标称型数据
AdaBoost
优点
泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整
缺点
对离群点敏感
适用范围
数值型和标称型数据
线性回归
优点
结果易于理解,计算上不复杂
缺点
对非线性的数据拟合不好
适用范围
数值型和标称型数据
树回归
优点
可以对复杂和非线性的数据建模
缺点
结果不易理解
适用范围
数值型和标称型数据
K-均值
优点
容易实现
缺点
可能收敛到局部最小值,在大规模数据集上收敛较慢
适用范围
数值型数据
Apriori算法
优点
易编码实现
缺点
在大数据集上可能较慢
适用范围
数值型和标称型数据
FP-growth算法
优点
一般要快于Apriori
缺点
实现比较困难,在某些数据集上性能会下降
适用范围
标称型数据
PCA
优点
降低数据的复杂性,识别最重要的多个特征
缺点
不一定需要,且可能损失有用信息
适用范围
数值型数据
SVD
优点
简化数据,去除噪声,提高算法结果
缺点
数据的转换可能难以理解
适用范围
数值型数据
MapReduce
优点
可在短时间内完成大量工作
缺点
算法必须经过重写,需要对系统工程有一定的理解
适用范围
数值型和标称型数据