机器学习-决策树概念、信息熵、信息增益

zoukankan html css js c++ java

机器学习-决策树概念、信息熵、信息增益
决策树概念：

　　决策树是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一颗树的枝干，故称决策树。

　　三个关键点：
1. 已知的各种情况的概率分布
2. 求解最大期望
3. 决策树是一种求解方法
信息熵概念：

　　表示信息的不确定度

　　信息学之父香农引入了信息熵的概念，并给出了计算信息熵的数学公式：

p(i|t) 代表了节点 t 为分类 i 的概率，其中 log2 为取以 2 为底的对数。这里我们不是来介绍公式的，而是说存在一种度量，它能帮我们反映出来这个信息的不确定度。当不确定性越大时，它所包含的信息量也就越大，信息熵也就越高。

举个例子，假设有 2 个集合：
- 集合 1：5 次去打篮球，1 次不去打篮球；
- 集合 2：3 次去打篮球，3 次不去打篮球。
在集合 1 中，有 6 次决策，其中打篮球是 5 次，不打篮球是 1 次。那么假设：类别 1 为“打篮球”，即次数为 5；类别 2 为“不打篮球”，即次数为 1。那么节点划分为类别1的概率是 5/6，为类别2的概率是1/6，带入上述信息熵公式可以计算得出：

同样，集合 2 中，也是一共 6 次决策，其中类别 1 中“打篮球”的次数是 3，类别 2“不打篮球”的次数也是 3，那么信息熵为多少呢？我们可以计算得出：

从上面的计算结果中可以看出，信息熵越大，纯度越低。当集合中的所有样本均匀混合时，信息熵最大，纯度最低。

信息增益：

　　通过划分带来纯度的提高，降低信息熵。

　　计算公式：父节点的信息熵减去所有子节点的信息熵。

公式中，D代表父节点，Di代表子节点,Gain(D,a) 中的a作为D节点的属性选择。

假设，D 天气=晴的时候，会有5次去打球，5次不打球。其中，D1 刮风=是：2次打篮球，1次不打篮球；D2 刮风 = 否：3次打篮球，4次不打篮球。那么，a代表节点的属性：即天气=晴。

针对上图这个例子，D作为节点的信息增益为：

转自：https://www.cnblogs.com/molieren/articles/10664954.html
查看全文

相关阅读:
Python staticmethod
pandas通过字典生成dataframe
关于series的统计
 python的*args与**kwargs
python global
matplotlib画子图时设置总标题
 matplotlib两种画散点图的方式
 idea下web工程的编译和输出设置
 Vue&webpack入门实践
 《图解设计模式》读书笔记6-1 VISITOR模式

原文地址：https://www.cnblogs.com/gengyufei/p/14034898.html

机器学习-决策树概念、信息熵、信息增益

决策树概念：

信息熵概念：

信息增益：