zoukankan      html  css  js  c++  java
  • 树模型之Bagging总结

    Bagging vs. Boosting

    Bagging和Boosting是树模型集成的两种典型方式。Bagging集成随机挑选样本和特征训练不同树,每棵树尽可能深,达到最高的精度。依靠小偏差收敛到理想的准确率。Boosting算法注重迭代构建一系列分类器, 每次分类都将上一次分错的样本的权重提高,依靠弱模型和多次迭代达到最高精度。

    QA

    • 为什么Bagging模型使用强模型?
        bagging的方式要求有大量的模型,模型越多效果的方差越小, 结果越接近平均水平, 所以只要保证单个模型的偏差就可以保证整体效果, 所以要求单模型的性能越强越好.
    • 为什么Boosting 使用弱模型?
        Boosting模型都针对分错的样本进行优化,所以每个基分类器的准确率是能够得到保证的也就是说偏差较小, 所以只要保证方差小就可以保证整体效果. 如果是强模型的话,基分类器的个数越多,方差越大. 但是弱分类的方差会稍微比强基分类器的方差小一点.

    Random Forest

    RandomForest是一种典型的bagging集成算法。训练时,针对样本,会随机抽取不同的样本和特征训练不剪枝的CART树,一直训练到达到预定义的基分类器个数。对于输出,针对分类问题,预测结果是各个基分类器的投票,针对回归问题,预测结果是各个分类器的输出结果的平均值。

    模型评价 (准确率 时间 空间 模型复杂程度 过拟合 噪声影响 是否可并行化 调参)

    1. 准确率: 相比GBDT算法,它默认参数的效果不错,可以很好地作为baseline模型
    2. 时间: 时间复杂度主要取决于数据集的复杂程度,如果数据集很复杂的话, 需要100-200棵树, 如果不复杂的话,一般10-100棵树就好
    3. 空间:空间复杂度因为需要训练大量的树, 所以很耗内存.
    4. 模型复杂度: 模型很简单
    5. 过拟合: 每次采取部分的样本, 所以在树的深度和树的数量不过分的情况下, 是不会出现过拟合现象的.
    6. 噪声影响: 采取随机采取的方式,不一定会采到特征, 所以抗噪声能力很好
    7. 是否可并行化: 因为树模型之间无关联,所以可以并行化.
    8. 调参: 树的棵树, 层数, 特征数量, 叶子节点的最少样本数量, 内部节点的最少样本数量,

    优点

    1. 支持多种树集成,可以形成强大的异构集成算法
    2. 在随机挑选样本和特征,可以减少异常点的影响,降低过拟合

    缺点

    耗时耗内存:每个基分类器的准确率不是很高,所以要求有大量的基分类器才能取得良好的效果,分界线是100,所以整体的训练时间很长,一般适合小数据训练

    QA

    • 为什么RF不用后剪枝,但是实现了预剪枝?
        方差和偏差的角度
    • 为什么要用随机采取样本和特征的方式?
        优点:样本数量,模型差异化;
        缺点:欠拟合(配合强分类就可以效果很好)
    • 为什么可以并行化?
        模型之间没有关联
    • RF使用的是什么树?
        可以是分类树也可以是回归树,评价指标分别是gini指数和均方差和
    • RF对输入数据有什么要求吗?
        连续特征可以直接用,离散特征需要处理成labelhot或者onehot

    调参小结

    主要调节树的棵树和深度、选择样本和特征的比例

    1. 相比GBDT的默认输出,RF的默认参数要好一些。
    2. 先调节分类器个数从10:200的范围内挑,但是一般数据较小的话,10:100就可以了
    3. 在调节最大深度,调节最大深度要和内部节点的最小样本数量一起调,最大深度的范围[3-20],节点的最小样本数量范围[50,200]
    4. 在调节内部节点的最少样本数量和叶子节点的最少样本数量,范围分别是[80,150],[10,50]
    5. 最后调节特征数量,一般是[0.5,0.8]
  • 相关阅读:
    redis存储session配制方法
    thanks使用注意事项;
    mongodb sort limit和skip用法
    mongoose的用法(注:连接数据库)
    mongoose查询特定时间段文档的方法
    webworker的使用案例
    js 传参数
    redis.config翻译
    Oracle keep详解
    自学之笔记总结
  • 原文地址:https://www.cnblogs.com/x739400043/p/12382866.html
Copyright © 2011-2022 走看看