随机森林 - 走看看

zoukankan html css js c++ java

随机森林

在机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而 "Random Forests" 是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林（random decision forests）而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造决策树的集合。
学习算法
根据下列算法而建造每棵树：
1. 用 N 来表示训练例子的个数，M表示变量的数目。
2. 我们会被告知一个数 m ，被用来决定当在一个节点上做决定时，会使用到多少个变量。m应小于M
3. 从N个训练案例中以可重复取样的方式，取样N次，形成一组训练集（即bootstrap取样）。并使用这棵树来对剩余预测其类别，并评估其误差。
4. 对于每一个节点，随机选择m个基于此点上的变量。根据这 m 个变量，计算其最佳的分割方式。
5. 每棵树都会完整成长而不会剪枝（Pruning）（这有可能在建完一棵正常树状分类器后会被采用）。
优点
随机森林的优点有：
1. 对于很多种资料，它可以产生高准确度的分类器。
2. 它可以处理大量的输入变量。
3. 它可以在决定类别时，评估变量的重要性。
4. 在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计。
5. 它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
6. 它提供一个实验方法，可以去侦测 variable interactions 。
7. 对于不平衡的分类资料集来说，它可以平衡误差。
8. 它计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
9. 使用上述。它可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
10. 学习过程是很快速的。
缺点
1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
2. 对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

查看全文

相关阅读:
redis复制
 redis发布订阅
 redis事务
 redis持久化
 redis.conf 常见配置介绍
 redis数据类型
 redis集群安装
 redis单机版安装
 eclipse下svn的使用
 算法五最长回文子串

原文地址：https://www.cnblogs.com/AI001/p/3996931.html