zoukankan      html  css  js  c++  java
  • 随机森林

    目录

      集成算法

      Bagging模型

      随机森林优势

      Bagging模型集成


    集成算法

      目的:让机器学习效果更好,三个凑皮匠顶个诸葛亮的思想。

      实现思想有:

      Bagging:训练多个分类器取平均

      Boosting:从弱学习器开始加强,通过加权来进行训练

     返回目录

    Bagging模型 

      思想:并行训练一堆分类器

      最典型的代表就是随机森林(训练多个决策树,过程可参考决策树相关文章)

      随机:数据采样随机,特征选择随机

      森林:多个决策树并行放在一起

     返回目录

    随机森林优势 

      能够处理很高维度(feature很多)的数据,并且不用做特征选择

      在训练完后,他能够给出哪些feature比较重要

      容易做成并行化方法,速度比较快

      可以可视化展示,便于分析

      假设训练集样本有9000个,特征有ABCD。随机森林进行50次有放回抽样,最终会有一部分样本没有被抽到,没有本抽到的样本的集合称为out-of-bag,这个集合可以用来评测模型。

      如果想测特征A的重要性,可以破坏特征A的取值,比如随机一些数据代替掉A特征里的数据,然后看一下随机森林模型在out-of-bag集合里错误率提升的幅度,错误率提高越大说明特征A越重要。

     返回目录

    Bagging模型集成 

      理论上越多的树效果越好,但实际上基本超过一定数量差不多上下浮动了。也要根据具体业务,不同数据可能会不同,可以通过交叉验证法来决定。

     返回目录

  • 相关阅读:
    Java实体类的属性类型与数据库表字段类型对应表
    MyBatis的settings设置描述
    Hibernate的属性配置
    eclipse快捷键
    2018年计划
    Django之Form组件归类
    Django之Form组件补充
    Django之Form组件
    Django之中间件
    Django之分页升级版本(组件)
  • 原文地址:https://www.cnblogs.com/itmorn/p/8269334.html
Copyright © 2011-2022 走看看