zoukankan      html  css  js  c++  java
  • GBDT

    算法概述

    Gradient Tree Boosting 梯度树提升GTB,又叫做gradient boosting regression tree梯度提升回归树GBRT,有叫做gradient boosting decision tree梯度提升回归树GBDT

     

    GBDT 的优点:

    • 对混合型数据的自然处理(异构特征)
    • 强大的预测能力
    • 在输出空间中对异常点的鲁棒性(通过具有鲁棒性的损失函数实现)

    GBDT 的缺点:

    • 可扩展性差(此处的可扩展性特指在更大规模的数据集/复杂度更高的模型上使用的能力,而非我们通常说的功能的扩展性;GBDT 支持自定义的损失函数,从这个角度看它的扩展性还是很强的!)。由于提升算法的有序性(也就是说下一步的结果依赖于上一步),因此很难做并行

    GBDT是基于回归树的,回归树和分类树类似,只是在每个树节点都去计算这个节点上所有的树的平均值,分枝时要穷举节点上所有的值,作为阈值进行划分,大于这个值得作为一类,小于这个值的作为一类,计算两部分的均值,并计算方差。方差最小的所对应的阈值作为划分特征。

    GD即Gradient Boost,训练一个回归树,计算终节点的平均值,与真实值做对比,将差值输入另外一个回归树,训练这个回归树,将这个回归书的预测值与残差值比较,再把残差值输入另外一个回归树训练,直到最后一个回归树的预测值和输入的残差值相等,也就是所将每个回归树的预测值加起来后等于真实值。

    算法原理

    给定输入向量x和输出变量y组成的若干训练样本(x1,y1),(x2,y2),…,(xn,yn),目标是找到近似函数F(x),使得损失函数L(y,F(x))的损失值最小。

    L(y,F(x))的典型定义为

     

    假定最优函数为:

     

    假定F(x)是一族基函数fi(x)的加权和

     

    梯度提升方法寻找最优解F(x),使得损失函

    数在训练集上的期望最小。方法如下:

    首先,给定常函数F0(x):

     

    以贪心的思路扩展得到Fm(x):

     

    梯度近似:

    贪心法在每次选择最优基函数f时仍然困难,使用梯度下降的方法近似计算

    将样本带入基函数f得到f(x1),f(x2),...,f(xn),从而L退化为向量L(y1,f(x1)),L(y2,f(x2)),...,L(yn,f(xn))

     

    上式中的权值γ为梯度下降的步长,使用线性搜索求最优步长:

     

    提升算法

    初始给定模型为常数

     

    对于m=1到M,计算伪残差

     

    使用数据 计算拟合残差的基函数f m (x)

    计算步长,一维优化

     

    更新模型

     

    梯度提升决策树GBDT

    梯度提升的典型基函数即决策树(尤其是CART),在第m步的梯度提升是根据伪残差数据计算决策树tm(x)。令树tm(x)的叶节点数目为J,即树tm(x)将输入空间划分为J个不相交区域R1m,R2m,...,RJm,并且决策树tm(x)可以在每个区域中给出某个类型的确定性预测。使用指示记号I(x)

    使用线性搜索计算学习率,最小化损失函数

     

    进一步:对树的每个区域分别计算步长,从而系数b jm 被合并到步长中,从而:

     

    参数设置和正则化

    1)叶结点数目控制了树的层数,一般选择4≤J≤8

    2)叶结点包含的最少样本数目,防止出现过小的叶结点,降低预测方差

    3)梯度提升迭代次数M:增加M可降低训练集的损失值,但有过拟合风险

    4)衰减因子、降采样

    衰减Shrinkage,又称为学习率v,ν=1即为原始模型;推荐选择v<0.1的小学习率。过小的学习率会造成计算次数增多。

    5)降采样

    使用随机梯度提升Stochastic gradient boosting:每次迭代都对伪残差样本采用无放回的降采样,用部分样本训练基函数的参数。令训练样本数占所有伪残差样本的比例为f;f=1即为原始模型:推荐0.5≤f≤0.8。

    较小的f能够增强随机性,防止过拟合,并且收敛的快。

    降采样的额外好处是能够使用剩余样本做模型验证。

    GBDT总结

    1)函数估计本来被认为是在函数空间而非参数空间的数值优化问题,而阶段性的加性扩展和梯度下降手段将函数估计转换成参数估计。

    2)损失函数是最小平方误差、绝对值误差等,则为回归问题;而误差函数换成多类别Logistic似然函数,则成为分类问题。

    3)对目标函数分解成若干基函数的加权和,是常见的技术手段:神经网络、径向基函数、傅立叶/小波变换、SVM都可以看到它的影子。

    调参实战

    1)  分类

    from sklearn.ensemble import GradientBoostingClassifier

    GradientBoostingClassifier(loss='deviance',  learning_rate=0.1,  n_estimators=100,  subsample=1.0,  criterion='friedman_mse', min_samples_split=2,  min_samples_leaf=1,  min_weight_fraction_leaf=0.0,  max_depth=3,  min_impurity_decrease=0.0, min_impurity_split=None,  init=None,  random_state=None,  max_features=None,  verbose=0,  max_leaf_nodes=None, warm_start=False,  presort='auto')

     

    弱学习器(例如:回归树)的数量由参数 n_estimators 来控制;每个树的大小可以通过由参数 max_depth 设置树的深度,或者由参数 max_leaf_nodes 设置叶子节点数目来控制。 learning_rate 是一个在 (0,1] 之间的超参数,这个参数通过 shrinkage(缩减步长) 来控制过拟合。

     

    Note:

    超过两类的分类问题需要在每一次迭代时推导 n_classes 个回归树。因此,所有的需要推导的树数量等于n_classes * n_estimators 。对于拥有大量类别的数据集我们强烈推荐使用 RandomForestClassifier 来代替

     

    2)  回归

    from sklearn.ensemble import GradientBoostingRegressor

    GradientBoostingRegressor(loss='ls',  learning_rate=0.1,  n_estimators=100,  subsample=1.0,  criterion='friedman_mse', min_samples_split=2,  min_samples_leaf=1,  min_weight_fraction_leaf=0.0,  max_depth=3,  min_impurity_decrease=0.0, min_impurity_split=None,  init=None,  random_state=None,  max_features=None,  alpha=0.9,  verbose=0, max_leaf_nodes=None,  warm_start=False,  presort='auto')

     

    对于回归问题 GradientBoostingRegressor 支持一系列 different loss functions ,这些损失函数可以通过参数 loss 来指定;对于回归问题默认的损失函数是最小二乘损失函数( 'ls' )。可选的loss : {‘ls’, ‘lad’, ‘huber’, ‘quantile’}, optional (default=’ls’)

  • 相关阅读:
    WinForm事件中的Object sender和EventArgs e参数
    Day 25:Python 模块 collections 3 个常用类
    Day 23:Python 中的一些高频面试题及解答小记
    Day 22:Python 迭代器和生成器小记
    Day 21:Python 多线程和协程
    Day 20:python中几个常用的内置函数
    Day 19:Python 函数五类参数
    遍历容器auto方法
    JS鼠标提示框效果
    数据库(二)
  • 原文地址:https://www.cnblogs.com/yongfuxue/p/10094721.html
Copyright © 2011-2022 走看看