zoukankan      html  css  js  c++  java
  • 随机森林

    在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合 Breimans 的 "Bootstrap aggregating" 想法和 Ho 的"random subspace method"" 以建造决策树的集合。
    学习算法
    根据下列算法而建造每棵树:
    1. 用 N 来表示训练例子的个数,M表示变量的数目。
    2. 我们会被告知一个数 m ,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M
    3. 从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。
    4. 对于每一个节点,随机选择m个基于此点上的变量。根据这 m 个变量,计算其最佳的分割方式。
    5. 每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。
    优点
    随机森林的优点有:
    1. 对于很多种资料,它可以产生高准确度的分类器。
    2. 它可以处理大量的输入变量。
    3. 它可以在决定类别时,评估变量的重要性。
    4. 在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
    5. 它包含一个好方法可以估计遗失的资料,并且,如果有很大一部分的资料遗失,仍可以维持准确度。
    6. 它提供一个实验方法,可以去侦测 variable interactions 。
    7. 对于不平衡的分类资料集来说,它可以平衡误差。
    8. 它计算各例中的亲近度,对于数据挖掘、侦测偏离者(outlier)和将资料视觉化非常有用。
    9. 使用上述。它可被延伸应用在未标记的资料上,这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料。
    10. 学习过程是很快速的。
    缺点
    1. 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟
    2. 对于有不同级别的属性的数据,级别划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
  • 相关阅读:
    git pull 解决 refusing to merge unrelated histories 错误
    springboot 集成 jpa/hibernate
    hibernate(*.hbm.xml)中新添加的字段被标记为红色(找不到)的解决方法
    IntelliJ IDEA下自动生成Hibernate映射文件以及实体类
    HighGUI图形图像界面初步—— 图像的载入、显示与输出
    0_OpenCV3.4.0+Visual Studio2017 + win10环境配置
    5_Longest Palindromic Substring(Manacher) --LeetCode
    3_Longest Substring Without Repeating Characters -- LeetCode
    vs2017密钥
    2_基于深度学习的目标检测识别算法
  • 原文地址:https://www.cnblogs.com/AI001/p/3996931.html
Copyright © 2011-2022 走看看