zoukankan      html  css  js  c++  java
  • 随机森林

    随机森林(Random Forest,简称RF)

    森林是有树构建的,随机森林是由多个决策树构建的。

    如何随机?

    1. 数据的随机性化
    2. 待选特征的随机化

    流程:

      1. 采取有放回的抽样方式构建子数据集,保证不同子数据集之间的数量级一样

      2. 利用子数据集构建子决策树,每个子决策树输出一个结果

      3. 统计子决策树的投票结果,得到最终分类就是随机森林的输出结果

    2. 待选特征的随机化(k的引入

      a. 子树从所有的待选特征中随机选取一定的特征。

      b. 在选取的特征(k个特征)中选取最优的特征。

     

    假如当前所有特征为d个,传统决策树是从d个选一个最优特征;而随机森林里的子树是从d个中随机选取k个,在从k个中选一个最优特征。

    当k = d时,子树就变成了传统决策树;

    当k = 1时,子树就随机选择一个特征进行划分。

    推荐值:

    随机森林 开发流程

    收集数据:任何方法
    准备数据:转换样本集
    分析数据:任何方法
    训练算法:通过数据随机化和特征随机化,进行多实例的分类评估
    测试算法:计算错误率
    使用算法:输入样本数据,然后运行 随机森林 算法判断输入数据分类属于哪个分类,最后对计算出的分类执行后续处理

     

  • 相关阅读:
    【案例】ORA-02298
    ORA-01578: ORACLE 数据块损坏 (文件号 10, 块号 57896)ORA-01110: 数据文件 10: '/data/oradata/prod35.dbf'
    mysql主从架构,IO、SQL线程运行为YES,从库没有同步数据
    MySQL5.7.21报错:[Err] 1055
    ORACLE数据库黑/白名单
    Mongodb日常管理
    hive Hbase sql
    hive DDL操作
    hive 分桶及抽样调查
    hive 排序
  • 原文地址:https://www.cnblogs.com/gezhuangzhuang/p/10009492.html
Copyright © 2011-2022 走看看