决策树、随机森林与k-means聚类算法

zoukankan html css js c++ java

决策树、随机森林与k-means聚类算法
决策树的构建满足信息熵增益最大化原则

决策树的优点：
- 可解释性高
- 能处理非线性的数据
- 不需要数据归一化
- 可以用于特征工程
- 对数据分布没有偏好
- 广泛使用
- 容易软件实现
- 可以转化为规则
决策树的弱点
- 启发式生成，不是最优解
- 容易过拟合
- 微小的数据改变会改变整个树的形状
- 对类别不平衡的数据不友好
随机森林指训练多个决策树结果，预测时回归取均值，分类取众数
随机体现在带放回的随机取数据子集做训练数据，随机选择的特征子集中选择一个特征
随机森林消除了决策树容易过拟合的缺点，不会因为训练数据的小变化而剧烈变化

K-means算法

初始化：随机选择K个点，作为初始中心点，每个点代表一个group.
交替更新：
步骤1.计算每个点到所有中心点的距离，把最近的距离记录下来并赋把group赋给当前的点
步骤2.针对于每一个group里的点，计算其平均并作为这个group的新的中心点（重心：分别每个维度的坐标和除以坐标个数）。
如果中心点不再变化就停止

一定会收敛吗？一定收敛
不同的初始化结果，会不会带来不一样的结果？会不一样
K-Means的目标函数是什么？非凸函数，局部最优不一定是全局最优
$ sum_{i=1}^n sum_{k=1}^k r_{ik}(x_i-u_k) $
步骤1：假定u已知求r最优解步骤2：假定r已知求u最优解
K如何选择？求出k=2-n的目标函数的值

其他聚类算法：GMM、层次聚类、Spectral Clustrering、DBSCAN、Kernel K-Means...
扫码关注我的微信公众号：微实验
查看全文

相关阅读:
App测试
 转【测试基础】测试计划如何编写
 web测试之界面测试
 6个讨喜的 ES6 小技巧
 在选择数据库的路上，我们遇到过哪些坑？（2）
在选择数据库的路上，我们遇到过哪些坑？（1）
10款jQuery文本高亮插件
 谷歌开发者大会传达的8条关键信息
 我有几个粽子，和一个故事
 容器监控—阿里云&容器内部服务监控

原文地址：https://www.cnblogs.com/igofreely/p/11218459.html

决策树、随机森林与k-means聚类算法

决策树的构建满足信息熵增益最大化原则

K-means算法