gbdt选择特征其实就是CART Tree的生成过程。gbdt的弱分类器默认选择的是CART TREE。其实也可以选择其他弱分类器的,选择的前提是低方差和高偏差。假设我们目前总共有 M 个特征。第一步我们需要从中选择出一个特征 j,做为二叉树的第一个节点。然后对特征 j 的值选择一个切分点 m. 一个 样本的特征j的值 如果小于m,则分为一类,如果大于m,则分为另外一类。如此便构建了CART 树的一个节点,其他节点的生成过程和这个是一样的。
那么在每轮迭代的时候,如何选择这个特征 j,以及如何选择特征 j 的切分点 m?
回归树——最小二乘回归树生成法
- 先遍历训练样本的所有的特征,对于特征 j,我们遍历特征 j 所有特征值的切分点 c。
- 找到可以让下面这个式子最小的特征 j 以及切分点c.
- 所谓最小二乘,就是损失函数为均方误差形式的最优化问题