之前以为决策树挺简单的,之前看了西瓜树感觉自己对决策树了解了,但是现在感觉还是很多问题啊。列出一下提纲(基本都是问题)
决策树是一种基本的分类与回归的方法,使用中应该是用于分类的比较多,但是像CART也可以用于回归。
决策树的算法,我学的就三个:ID3、C4.5、CART,主要分为树的生成和剪枝。
在树的生成过程中的一个大的问题就是数据值的处理和分割点的选择。
分割点的选择依据有信息增益和信息增益比。
数值处理:连续值的处理,缺失值的处理
信息增益的计算方法。
信息增益与信息增益比的对比。信息增益在划分数据集时候存在偏向于选择值比较多的特征的问题,使用信息熵增益比可以对这一问题进行矫正。