zoukankan      html  css  js  c++  java
  • CART回归树

    决策树算法原理(ID3,C4.5)

    决策树算法原理(CART分类树)

    决策树的剪枝

      CART决策树的生成就是递归地构建二叉树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则。

      给定训练集 D = {(x1, y1), (x2, y2),...(xN, yN)} 考虑如何生成回归树。

      一个回归树对应输入空间的一个划分以及在划分单元上的输出值。假如数据空间被划分为R1~Rm单元,每个单元有一个固定的输出值Cm

      CART回归树模型表达式:

      这样可以计算模型输出值与真实值的误差:

      希望每个单元上的Cm,可以使平方误差最小化,易知当Cm为相应单元上所有实际值的均值时,达到最优

      如何生成这些被划分的单元?

      下面是一组数据:

      选择变量x(j)为切分变量,它的取值s为切分点,那么得到两个区域:

      当 j 和 s 固定时,我们要找到两个区域的代表值C1、C2使各自区间上的平方差最小,

      已知满足平方误差最小的C1、C2为区间上的平均,

      那么对固定的 j 只需要找到最优的 s,
      然后通过遍历所有的变量,我们可以找到最优的 j,
      这样我们就可以得到最优对(j,s),并得到两个区间。

      上述过程表示的算法步骤:

      即:

      1. 考虑数据集 D 上的所有特征 j,遍历每一个特征下所有可能的取值或者切分点 s,将数据集 D 划分成两部分 D1 和 D2。
      2. 分别计算上述两个子集的平方误差和,选择最小的平方误差对应的特征与分割点,生成两个子节点。
      3. 对上述两个子节点递归调用步骤1、2,直到满足停止条件。
         

    来自:https://www.jianshu.com/p/b90a9ce05b28

  • 相关阅读:
    数据库排名函数(Rank)
    请求支付报表的测试
    DateTime详细资料转载
    sqlserver2005的安装问题
    Hdu 1398 Square Coins
    HDU 1709 The Balance
    POJ 1423 Big Number
    hdu 1106 排序
    HDU 1028 Ignatius and the Princess III
    并查集Is It A Tree?hdu 1325
  • 原文地址:https://www.cnblogs.com/keye/p/10601501.html
Copyright © 2011-2022 走看看