决策树
什么是决策树
顾名思义,决策树就是一棵树,一颗决策树包含一个根节点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到子结点中;根结点包含样本全集,从根结点到每个叶子结点的路径对应了一个判定测试序列。下面直接上个图,让大家看下决策树是怎样决策的(以三元分类为例)
实现步骤
一般决策树的实现主要包含以下三个步骤:节点特征的选取(信息增益)、决策树的构建(利用递归的方式,具体参考代码)、决策树修剪(防过拟合)
节点特征的选取
节点不纯度的度量
Gini指数(Gini index)
信息嫡(entropy)
误分率(misclassification error)