每日一个机器学习算法——信息熵

zoukankan html css js c++ java

每日一个机器学习算法——信息熵

1 定义

2 直观解释

信息熵用来衡量信息量的大小

若不确定性越大，则信息量越大，熵越大

若不确定性越小，则信息量越小，熵越小

比如A班对B班，胜率一个为x，另一个为1-x

则信息熵为 -(xlogx + (1-x)log(1-x))

求导后容易证明x=1/2时取得最大，最大值为2

也就是说两者势均力敌时，不确定性最大，熵最大。

3 应用

数据挖掘中的决策树。

构建决策树的过程，就是减小信息熵，减小不确定性。从而完整构造决策树模型。

所以我们需要在每一次选择分支属性时，计算这样分类所带来的信息熵的增益，增益越大，不确定性越小，最终也就是我们要选择的分支属性。

首先我们会在未进行任何分类前求取一个信息熵，这个信息熵涉及到只是简单的求取样本标签的分布，然后按照公式求解信息熵。

之后在选用某一个属性作为分支属性后，我们需要计算每一个子分支中的样本标签的分布，然后计算每个子样本的信息熵，最后加权平均（期望），求得总的信息熵。

计算前后两个信息熵的差值，选择最大的增益属性作为分支属性。

一直递归下去，对每一个子样本套用上述方法。直到所有的样本都被归类于某个叶节点，即不可再分为止。

以上方法是ID3方法，还有更好的C4.5方法

C4.5方法选用信息增益比，克服了ID3使用信息增益选择属性时偏向取值较多的属性的不足。

除了可以处理离散类型的属性，还可以处理连续型。

处理连续型属性时，最重要的一步确定分割点。这里同样需要用到信息增益比。

我们可以人工的为选择一系列的分割点，然后分别计算被分割点分割的前后两个区间的信息熵，最后加权求得该分割点情况下的信息熵。

最后取信息增益最大的分割点作为分割条件。

简而言之，和ID3相比，就是在计算分割点的时候，需要额外用到一次信息增益法。

查看全文

相关阅读:
【Golang 接口自动化08】使用标准库httptest完成HTTP请求的Mock测试
 【Golang 接口自动化07】struct转map的三种方式
 【Golang 接口自动化06】微信支付md5签名计算及其优化
 【Golang 接口自动化05】使用yml管理自动化用例
 【Golang 接口自动化04】解析接口返回JSON串
 【Mac】小技巧：实现ssh服务器别名免密登录
 【Golang】幽灵变量（变量覆盖）问题的一劳永逸解决方法
 【Golang】字符串首字母大小写转化
 【Python】给图片添加水印的Python及Golang实现
 sequelize处理日期格式化

原文地址：https://www.cnblogs.com/ShaneZhang/p/3970176.html