zoukankan      html  css  js  c++  java
  • 课时四、决策树和随机森林

    决策树

    • 通常决策树主要有三种实现,分别是ID3算法,CART算法和C4.5算法。
    • 随机森林的重点在于单个决策树是如何建造的

    CART

    • Classification And Regression Tree,即分类回归树算法,简称CART算法,它是决策树的一种实现.
    • CART算法是一种二分递归分割技术,把当前样本划分为两个子样本,使得生成的每个非叶子结点都有两个分支,因此CART算法生成的决策树是结构简洁的二叉树。由于CART算法构成的是一个二叉树,它在每一步的决策时只能是“是”或者“否”,即使一个feature有多个取值,也是把数据分为两部分。在CART算法中主要分为两个步骤:
      • 将样本递归划分进行建树过程
      • 用验证数据进行剪枝
    • 原理

    • 信息论中,熵是接受的每条消息中包含的信息的平均值。又被称为信息熵、信源熵、平均自信息量。可以被理解为不确定性的度量,熵越大,信源的分布越随机
    • 熵是描述一个系统的无序程度的变量;同样的表述还有,熵是系统混乱度的度量,一切自发的不可逆过程都是从有序到无序的变化过程,向熵增的方向进行

    信息熵

    交叉熵和相对熵

    • 交叉熵的由来

    • 相对熵的由来

    • 条件熵

    决策树算法

    三种决策树算法:ID3、C4.5、CART

    决策树的评价

    过拟合的解决方法:剪枝、随机森林

    剪枝

    • 剪枝系数的确定

    Bootstraping

    • 策略

    • OOB数据

    样本不均衡的常用处理方法

    使用RF建立计算样本间相似度

    • 使用随机森林计算特征重要度

    孤立森林(Isolation Forest):常用于异常值检测

  • 相关阅读:
    EF Load之详讲
    WPF系列 自定控件
    EF6 的性能优化
    WPF系列 Path表示语法详解(Path之Data属性语法)
    WPFTookit Chart 高级进阶
    WPFTookit Chart 入门
    WPF系列-CheckBox
    WPF系列 Style
    ASP.NET MVC 5 with EF 6 上传文件
    WPF Prism
  • 原文地址:https://www.cnblogs.com/linyk/p/13276898.html
Copyright © 2011-2022 走看看