zoukankan      html  css  js  c++  java
  • 通俗理解决策树中的熵&条件熵&信息增益

    参考通俗理解决策树算法中的信息增益

    说到决策树就要知道如下概念:

    • :表示一个随机变量的复杂性或者不确定性。

    假如双十一我要剁手买一件衣服,但是我一直犹豫着要不要买,我决定买这件事的不确定性()为2.6。

    • 条件熵:表示在直到某一条件后,某一随机变量的复杂性或不确定性。

    我在看了这件衣服的评价后,我决定买衣服这件事的不确定性是1.2。
    我在线下实体店试穿衣服后,我决定买衣服这件事的不确定性是0.9。

    • 信息增益:表示在知道某一条件后,某一随机变量的不确定性的减少量。

    上面条件熵给出了两个:
    一个是看了网上的评价,此时的信息增益是(Gain_1 =2.6-1.2=1.4)
    另一个是线下试穿了衣服,此时的信息增益
    (Gain_2=2.6-0.9=1.7)

    很显然我在线下试穿衣服之后对于决定买这件衣服的不确定度下降更多,更通俗的说就是我试穿衣服之后买这件衣服的可能性更大了。所以如果有看买家评价线下试穿两个属性,首先应该选择线下试穿来构建内部节点。

    信息熵计算公式

    • 符号(x_i)所具备的信息为: $$I(x_i) = -log_2p(x_i)$$
    • 所有类别所具有的信息熵(information entropy):$$H(X) = -sum_{i=1}^{n}p(x_i)log_2p(x_i)$$




    MARSGGBO原创

    2017-8-24

  • 相关阅读:
    Qt禁止调整窗口的大小
    CentOS 6.2修改主机名
    怎么培养新人
    软件的质量控制
    如何留住骨干
    物化视图索引引发的问题
    Oracle查询脚本优化
    Oracle视图编译错误解决办法
    spring切面配置,代理用jdk和cglib的区别
    Tomcat起了一个测试桩,调用该测试桩无响应
  • 原文地址:https://www.cnblogs.com/marsggbo/p/7467357.html
Copyright © 2011-2022 走看看