zoukankan      html  css  js  c++  java
  • 决策树、随机森林与k-means聚类算法

    决策树的构建满足信息熵增益最大化原则

    决策树的优点:

    • 可解释性高
    • 能处理非线性的数据
    • 不需要数据归一化
    • 可以用于特征工程
    • 对数据分布没有偏好
    • 广泛使用
    • 容易软件实现
    • 可以转化为规则

    决策树的弱点

    • 启发式生成,不是最优解
    • 容易过拟合
    • 微小的数据改变会改变整个树的形状
    • 对类别不平衡的数据不友好

    随机森林指训练多个决策树结果,预测时回归取均值,分类取众数
    随机体现在带放回的随机取数据子集做训练数据,随机选择的特征子集中选择一个特征
    随机森林消除了决策树容易过拟合的缺点,不会因为训练数据的小变化而剧烈变化

    K-means算法

    初始化:随机选择K个点,作为初始中心点,每个点代表一个group.
    交替更新:
    步骤1.计算每个点到所有中心点的距离,把最近的距离记录下来并赋把group赋给当前的点
    步骤2.针对于每一个group里的点,计算其平均并作为这个group的新的中心点(重心:分别每个维度的坐标和除以坐标个数)。
    如果中心点不再变化就停止

    一定会收敛吗? 一定收敛
    不同的初始化结果,会不会带来不一样的结果?会不一样
    K-Means的目标函数是什么? 非凸函数,局部最优不一定是全局最优
    $ sum_{i=1}^n sum_{k=1}^k r_{ik}(x_i-u_k) $
    步骤1:假定u已知求r最优解 步骤2:假定r已知求u最优解
    K如何选择?求出k=2-n的目标函数的值

    其他聚类算法:GMM、层次聚类、Spectral Clustrering、DBSCAN、Kernel K-Means...

  • 相关阅读:
    【机器学习】浅谈协方差
    python {}.format
    【机器学习】准确率、精确率、召回率
    【声纹识别】 EER
    【机器学习】 最形象的入门
    逻辑卷-LVM
    RAID及软RAID的实现
    输入数字or 字符串,统计重复次数---字典统计练习
    Python-数据结构之dict(字典*****)
    POJ 3204 网络流的必须边
  • 原文地址:https://www.cnblogs.com/igofreely/p/11218459.html
Copyright © 2011-2022 走看看