随机森林深入理解

zoukankan html css js c++ java

随机森林深入理解

《决策树算法——ID3》中，我们介绍了决策树的分类思想及原理，可以看出，决策树对经验数据可以很好的分类，但是模型通用性不强，预测往往不准确，也就是过拟合。我们可以通过剪枝减弱过拟合，但是还不够完美。

随机森林原理

随机森林的出现，完美的解决了决策树的劣势，使得分类效果大大提升，甚至超过了神经网络。随机森林的思想是：利用经验数据的不同属性建立多棵决策树，预测时每棵树独立的进行分类投票，最后选取投票数最多的分类结果作为预测结果。

比如《创造101》选取女团成员，参考信息有选手的身高，体重，年龄，颜值，性格，舞蹈，唱歌，创作，气质等等属性，我们需要把101个参赛选手分为出道和淘汰两类。不同人有不同选择，而且不同人分类的依据也不尽相同，我们单靠某个人的判断进行组团，结果可能十分糟糕，但是我们通过全国成千上万观众进行投票选择，那么结果一定符合社会对于女团成员的定义，这种结果往往是最优选择。（当然，需要排除刷票，黑幕等情况）

这里，我们可以把个人当做决策树，所有参与投票的人当做随机森林。随机森林正是基于这种以群体投票代替个体选择的思想进行分类，分类准确性当然高。并且随机森林中的决策树不是普通的分类器，而是专家分类器，随机森林可以看做一群不同专业专家的集合，由专家共同投票选择结果。

创建随机森林

建立单棵决策树的思想不再赘述，我们这里详述一下怎么建立不同的决策树。类似选取女团成员，只允许女生投票，结果不一定符合男生的审美，只允许老人投票，结果不一定符合年轻人的口味，所以建立不同的决策树十分重要。

我们通过有放回的选取行数据和随机选取列数据建立决策树。一行为一个经验数据，一列为一个属性。

1、有放回的选取行数据

对于m行经验数据，我们每次随机从m行数据中选取1行数据，选择m次。（选择的m行数据中很可能存在重复数据）

2、随机选取列数据

对于n列数据，我们随机选取k列，k<<n。

这样，我们得到了新的m * k经验数据矩阵，我们基于这个经验数据矩阵建立一棵决策树。

重复上述过程c次，我们就得到了一个包含c棵决策树的随机森林。

随机森林分类

对于新数据预测，我们使用随机森林中的所有决策树进行分类投票，最终选择投票最多类别作为预测结果。

查看全文

相关阅读:
Oracle-函数-split 和 splitstr 的创建
 git merge方法
 查看Android 设备进程id
内存泄漏
 Mac显示隐藏文件快捷键
 gradle版本
 commit单一文件
 21不下发信号
 FileInputStream read函数何时返回-1
maven turbonet目录

原文地址：https://www.cnblogs.com/coshaho/p/9236155.html