zoukankan      html  css  js  c++  java
  • 机器学习算法优缺点和应用

    一、决策树

    1、优点

    易于理解和解释,可视化;

    测试数据集时候,运行速度快;

    易于扩展;

    2、缺点

    缺失数据处理困难;

    容易过拟合;

    忽略属性之间的相关性;

    ID3算法计算信息增益时结果偏向数值比较多的特征;

    基于条件概率,容易理解不同属性对结果的影响程度。但因为只要追踪叶子节点的属性,所以很容易受到攻击;

    3、应用

    如其名,有很好的分析能力,多应用于决策过程,例如企业投资决策等。

    二、KNN

    1、优点

    是一种在线技术,新数据可以直接加入数据集,不必重新训练;

    简单易实现;

    2、缺点

    计算量大,样本容量大的时候很耗时间;

    样本不平衡时,预测的偏差比较大;

    每一次分类都要进行一次全局运算;

    k的选取;

    3、应用

    文本分类、模式识别、聚类分析

    三、SVM

    1、优点

    不依赖于需要很大的样本容量,解决小样本下的机器学习问题;

    可以解决非线性问题;

    没有局部极小值问题,没有梯度的计算;

    可以处理高维数据;

    泛化能力强;

    2、缺点

    对缺失数据敏感;

    3、应用

    文本分类、图像识别、主要二分类领域

    四、adaboost

    1、优点

    很好地利用了弱分类器;

    每个弱分类器可以有不同的算法;

    精度高;

    要充分考虑每个弱分类器的权重;

    2、缺点

    弱分类器的数目不好设定,需要交叉验证;

    数据不平衡会导致精度降低;

    耗时;

    3、应用

    模式识别、计算机视觉、多用于二分类和多分类

    五、朴素贝叶斯

    1、优点

    大量的训练和查询时有较高的速度;

    对项目的训练和分类仅仅是特征概率上的数学运算;

    可以实时对新增的样本进行训练;

    2、缺点

    样本特征独立的假设;

    3、应用

    适用于不同样本之间相关性比较小的时候,比较容易解释;

    文本分类、欺诈检测、垃圾邮件;

    六、logistic回归

    1、优点

    简单易于理解和实现

    2、缺点

    易欠拟合;

    精度不高;

    3、应用

    二分类领域,得出概率值;

    适用于根据分类概率排名的领域,如搜索排名;

    扩展softmax应用于多分类,如手写数字识别;

    七、神经网络

    1、优点

    分类准确度高、学习能力强;

    容错性和鲁棒性好;

    联想能力,能逼近任意非线性关系;

    2、缺点

    参数多、权值、阈值等等;

    黑盒,不能观察中间结果;

    学习过程长,易过拟合;

    3、应用

    计算机视觉、语音识别、自然语言处理

    八、随机森林

    改善了决策树容易被攻击的弱点,不需要调整太多的参数

  • 相关阅读:
    MySQL索引原理及慢查询优化
    MySQL单表百万数据记录分页性能优化
    linux下crontab命令的使用
    php递归读取目录
    php实现函数重载
    php数组常见的几种遍历方法
    ArtTemplate 使用笔记
    打算换工作的伙伴们,快来看啦,各种职位,随便挑咯...
    看看国外的javascript题目,你能全部做对吗?(分享)
    逛园子,看到个练习题,小试了一把(淘宝ued的两道小题)
  • 原文地址:https://www.cnblogs.com/pacino12134/p/11219317.html
Copyright © 2011-2022 走看看