zoukankan      html  css  js  c++  java
  • 数据挖掘几个入门级的算法的总结(优缺点)

    监督学习算法是指需要样本空间进行训练后才能作出预测或分类的算法,典型的例子有贝叶斯分类器、决策树和神经网络


    非监督学习算法的代表有聚类算法和特征矩阵


    可以从以下几个方面来比较算法:

    1.支持增量式训练:在收录新的数据后能自行调整,修正判断,提高准确率而不需要重新训练

    2.特征组合:能够响应特征组合,作出更精确的判断

    3.是否是黑盒技术:指算法的中间过程是否易于理解,决策树算法易于理解,而SVM则像天书


    按照上述角度比较监督学习算法,在括号内还会备注算法的其他特点:

    1.朴素贝叶斯网络:支持,不支持,否(典型用途:垃圾邮件分类)

    2.决策树:不支持,支持,否(不擅长对数值结果进行预测,典型用途:用户行为分析)

    3.神经网络:不支持,支持,是(难于判断训练的比率,典型用途:根据用户点击结果优化搜索引擎

    4.SVM:不支持,支持,是(适用于高维和大数据样本,难点在于寻找最佳核变换函数,典型用途:社交网站的用户分类

    5.KNN:支持,不支持,否(确定各个特征的比重即缩放因子很复杂,典型用途:预测价格


    非监督学习算法:

    1.层次合并:不停地合并相近项,产生树,对于大规模数据可以先抽取部分数据进行层次合并,然后把其余的数据根据距离分配到各个簇中去。

    2.K均值聚类:不断修正聚类点的位置直到收敛(聚类点的位置不变),种子的数目和初始位置的选择很重要

    3.特征矩阵:利用矩阵的因式分解获取特征和特征的权重


    推荐阅读《集体智慧编程》,《Web数据挖掘》



  • 相关阅读:
    运用Python计算Π的多少(大致计算)
    运用python绘制小猪佩奇
    博客园使用指南 wiki
    博客园 — 打赏功能
    新SSM框架整合
    springMVC
    Eclipse转IDEA的配置!!
    Java学习小知识总结
    java-StringBuffer
    博客园自定义主题
  • 原文地址:https://www.cnblogs.com/rav009/p/5131165.html
Copyright © 2011-2022 走看看