zoukankan      html  css  js  c++  java
  • 机器学习之 决策树

    一、熵、条件熵、信息增益

    数学概念:https://zhuanlan.zhihu.com/p/41134986

    二、决策树分类

    我们在构造决策树的时候,会基于纯度来构建。而经典的 “不纯度”的指标有三种,分别是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指数(Cart 算法)。
    信息增益:加入的某种特征可以减少的信息熵
      计算公式,是父亲节点的信息熵减去所有子节点的信息熵

    1.ID3:使用的分类标准是信息增益

    缺点:

    • ID3 没有剪枝策略,容易过拟合 (过拟合/欠拟合解释:https://blog.csdn.net/xuaho0907/article/details/88649141)
    • 信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征其信息增益接近于 1。因为每一个样本的编号都是不同的,也就是说,来了一个预测样本,你只要告诉我编号,其它特征就没有用了,这样生成的决策树显然不具有泛化能力。
    • 只能用于处理离散分布的特征;
    • 没有考虑缺失值

    https://www.cnblogs.com/yonghao/p/5096358.html 中写道:

      对于连续型数据,ID3原本是没有处理能力的,只有通过离散化将连续性数据转化成离散型数据再进行处理。可以直接采用等距离数据划分的离散化方法。该方法先对数据进行排序,然后将连续型数据划分为多个区间,并使每一个区间的数据量基本相同

    举例:

    Q1:为什么“对可取值数目较多的特征有所偏好”?

    2. C4.5

    C4.5 算法最大的特点是克服了 ID3 对特征数目的偏重这一缺点,引入信息增益率来作为分类标准。
    但是,增益率可能对取值较小的属性有所偏好。因此,C4.5不是直接用增益率最大的作为划分属性,而是用启发式:先从候选划分属性中找出【信息增益】高于平均水平的属性,再从中选择【信息增益率】最高的。

    Q2:为什么可以 "克服了 ID3 对特征数目的偏重" 这一缺点? 

    更详细可以参考:https://blog.csdn.net/u013164528/article/details/44359677

    特点:

    • 信息增益率
    • 悲观剪枝
    • 可以对连续属性进行处理
    • 可以处理缺失值

    3. CART分类树:基尼系数

  • 相关阅读:
    Android开发之Sqlite的使用
    ZOJ 3607 Lazier Salesgirl
    ZOJ 3769 Diablo III
    ZOJ 2856 Happy Life
    Ural 1119 Metro
    Ural 1146 Maximum Sum
    HDU 1003 Max Sum
    HDU 1160 FatMouse's Speed
    Ural 1073 Square Country
    Ural 1260 Nudnik Photographer
  • 原文地址:https://www.cnblogs.com/sabertobih/p/13932679.html
Copyright © 2011-2022 走看看