zoukankan      html  css  js  c++  java
  • 机器学习-决策树概念、信息熵、信息增益

    决策树概念:

      决策树是在已知各种情况发生概率的基础上,通过构成决策树求取净现值的期望值大于等于零的概率,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一颗树的枝干,故称决策树

      三个关键点:

    1. 已知的各种情况的概率分布
    2. 求解最大期望
    3. 决策树是一种求解方法

    信息熵概念:

      表示信息的不确定度

      信息学之父香农引入了信息熵的概念,并给出了计算信息熵的数学公式:

    p(i|t) 代表了节点 t 为分类 i 的概率,其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的,而是说存在一种度量,它能帮我们反映出来这个信息的不确定度。当不确定性越大时,它所包含的信息量也就越大,信息熵也就越高。

    举个例子,假设有 2 个集合:

    • 集合 1:5 次去打篮球,1 次不去打篮球;
    • 集合 2:3 次去打篮球,3 次不去打篮球。

    在集合 1 中,有 6 次决策,其中打篮球是 5 次,不打篮球是 1 次。那么假设:类别 1 为“打篮球”,即次数为 5;类别 2 为“不打篮球”,即次数为 1。那么节点划分为类别1的概率是 5/6,为类别2的概率是1/6,带入上述信息熵公式可以计算得出:

    同样,集合 2 中,也是一共 6 次决策,其中类别 1 中“打篮球”的次数是 3,类别 2“不打篮球”的次数也是 3,那么信息熵为多少呢?我们可以计算得出:

    从上面的计算结果中可以看出,信息熵越大,纯度越低。当集合中的所有样本均匀混合时,信息熵最大,纯度最低。

     信息增益:

      通过划分带来纯度的提高,降低信息熵。

      计算公式:父节点的信息熵减去所有子节点的信息熵。

    公式中,D代表父节点,Di代表子节点,Gain(D,a) 中的a作为D节点的属性选择。

    假设,D 天气=晴的时候,会有5次去打球,5次不打球。其中,D1 刮风=是:2次打篮球,1次不打篮球;D2 刮风 = 否:3次打篮球,4次不打篮球。那么,a代表节点的属性:即天气=晴。

    针对上图这个例子,D作为节点的信息增益为:

    转自:https://www.cnblogs.com/molieren/articles/10664954.html

  • 相关阅读:
    职场“潜”规则:心法和技法
    JVM参数配置
    python-编码
    pyserial库-串口通讯模块
    Arduino-舵机
    Arduino-中断
    Arduino-一些函数
    Arduino-位操作
    Nginx (一)Windows下编译Nginx源码以及安装 nginx for windows方法步骤
    MSYS2环境搭建
  • 原文地址:https://www.cnblogs.com/gengyufei/p/14034898.html
Copyright © 2011-2022 走看看