随机森林就是包含多个子决策树的模型,但是如何构建是有讲究的:
比如森林包含n个子决策树,这些决策树的模型是 一样的
训练样本随机抽样:
将一个大样本,通过随机抽取的办法,形成n个子样本,样本见元素可以重复
特征随机抽样:
特征也随机抽样,某个子决策树,使用部分特征,可以重复
这些随机抽样的目的是使不同子决策树之间差别尽量大,这样投票才更有意义!
投票得到结果:
这样对于一个测试数据,不同子决策树产生一个结果,使用投票得到最终结果