gain 基尼系数

zoukankan html css js c++ java

gain 基尼系数

转至：http://blog.csdn.net/bitcarmanlee/article/details/51488204

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下，权当笔记。

1.信息熵

熵是神马东东？信息论的开山祖师爷Shannon（中文翻译过来一般叫香农，总觉得很多文字经过翻译就不对劲，就跟人家老外翻译贱人就是矫情一样，感觉怪怪的。所以咱们还是用英文了，偷偷装个小逼）明确告诉我们，信息的不确定性可以用熵来表示：
对于一个取有限个值的随机变量X，如果其概率分布为：
$P (X = x i) = p i, i = 1, 2, \dots, n$
那么随机变量X的熵可以用以下公式描述：
$H (X) = - \sum i = 1 n p i log p i$
每次看到这个式子，都会从心底里感叹数学的伟大与奇妙。在这之前，信息这东东对于人们来说，是个看着好像挺清晰实际还是很模糊的概念。Shannon用最简洁美妙的方式，告诉了整个世界信息到底应该怎么去衡量去计算。今天每个互联网人都知道，这个衡量的标准就是bit。正是由于bit的出现，才引领了我们今天信息时代的到来。所以即使把Shannon跟世界上最伟大的那些科学家相提并论，我觉得也丝毫不为过。

举个例子，如果一个分类系统中，类别的标识是
$H (c) = - \sum i = 1 n p (c i) \cdot log 2 p (c i)$ $H (c) = p (c 0) log 2 p (c 0) + p (c 1) log 2 p (c 1)$
2.条件熵(Conditional Entropy)与信息增益（Information Gain）

第一节我们谈到，信息的不确定性我们用熵来进行描述。很多时候，我们渴望不确定性，渴望明天又是新的一天，希望寻找新的刺激与冒险，所谓的七年之庠就是最好的例子。但是又有很多时候，我们也讨厌不确定性，比如现在的RTB广告，很多时候广告主其实希望不管什么情况下，这个广告位都是归我所有来投广告，别人都别跟我来抢，我把广告素材准备好以后，媒体按排期给我播就行了。所以在这种情况下，我们又要竭力去消除系统的不确定性。

那怎么样去消除系统的不确定性呢？当我们知道的信息越多的时候，自然随机事件的不确定性就越小。举个简单的例子：
如果投掷一枚均匀的筛子，那么筛子出现1-6的概率是相等的，此时，整个系统的熵可以表述为：
$H (c) = - 1 6 log 2 1 6 \times 6 = log 2 6$ $H (c) = - 1 3 log 2 1 3 \times 3 = log 2 3$
因为我们加了一个特征x：结果为偶数，所以整个系统的熵减小，不确定性降低。

来看下条件熵的表达式：
1.当特征
$H (c | X) = - p (x = x 1) H (c | x = x 1) - p (x =$
其中，n为特征

那么因为特征X被固定以后，给系统带来的增益(或者说为系统减小的不确定度)为：
$I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2$
举个别人文章中例子：文本分类系统中的特征X,那么X有几个可能的值呢？注意X是一个固定的特征，比如关键词”经济”，当我们说特征”经济”可能的取值时，实际上只有两个，要么出现，要么不出现。假设
$H (C | X) = - p (x) H (c | x) - p (x ¯) H (C | x ¯$
特征
$I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2$
式子看上去很长，其实计算起来很简单，都是一些count的操作。

3.信息增益做特征选择的优缺点

先来说说优点：
1.信息增益考虑了特征出现与不出现的两种情况，比较全面，一般而言效果不错。
2.使用了所有样例的统计属性，减小了对噪声的敏感度。
3.容易理解，计算简单。

主要的缺陷：
1.信息增益考察的是特征对整个系统的贡献，没有到具体的类别上，所以一般只能用来做全局的特征选择，而没法针对单个类别做特征选择。
2.只能处理连续型的属性值，没法处理连续值的特征。
3.算法天生偏向选择分支多的属性，容易导致overfitting。

4.信息增益比(Infomation Gain Ratio)

前面提到，信息增益的一个大问题就是偏向选择分支多的属性导致overfitting，那么我们能想到的解决办法自然就是对分支过多的情况进行惩罚(penalty)了。于是我们有了信息增益比，或者说信息增益率：
特征
$H (X) = - \sum i = 1 n p i log p i$ $I G (X) = H (c) - H (c | X)$ $g r = H ( c ) - H ( c | X ) H ( X )$
在决策树算法中，ID3使用信息增益，c4.5使用信息增益比。

5.Gini系数

Gini系数是一种与信息熵类似的做特征选择的方式，可以用来数据的不纯度。在CART(Classification and Regression Tree)算法中利用基尼指数构造二叉决策树。
Gini系数的计算方式如下：
$G i n i (D) = 1 - \sum i = 1 n p 2 i$ $Δ G i n i (X) = G i n i (D) - G i n i X (D)$

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下，权当笔记。

1.信息熵

熵是神马东东？信息论的开山祖师爷Shannon（中文翻译过来一般叫香农，总觉得很多文字经过翻译就不对劲，就跟人家老外翻译贱人就是矫情一样，感觉怪怪的。所以咱们还是用英文了，偷偷装个小逼）明确告诉我们，信息的不确定性可以用熵来表示：
对于一个取有限个值的随机变量X，如果其概率分布为：
$P (X = x i) = p i, i = 1, 2, \dots, n$
那么随机变量X的熵可以用以下公式描述：
$H (X) = - \sum i = 1 n p i log p i$
每次看到这个式子，都会从心底里感叹数学的伟大与奇妙。在这之前，信息这东东对于人们来说，是个看着好像挺清晰实际还是很模糊的概念。Shannon用最简洁美妙的方式，告诉了整个世界信息到底应该怎么去衡量去计算。今天每个互联网人都知道，这个衡量的标准就是bit。正是由于bit的出现，才引领了我们今天信息时代的到来。所以即使把Shannon跟世界上最伟大的那些科学家相提并论，我觉得也丝毫不为过。

举个例子，如果一个分类系统中，类别的标识是
$H (c) = - \sum i = 1 n p (c i) \cdot log 2 p (c i)$ $H (c) = p (c 0) log 2 p (c 0) + p (c 1) log 2 p (c 1)$
2.条件熵(Conditional Entropy)与信息增益（Information Gain）

第一节我们谈到，信息的不确定性我们用熵来进行描述。很多时候，我们渴望不确定性，渴望明天又是新的一天，希望寻找新的刺激与冒险，所谓的七年之庠就是最好的例子。但是又有很多时候，我们也讨厌不确定性，比如现在的RTB广告，很多时候广告主其实希望不管什么情况下，这个广告位都是归我所有来投广告，别人都别跟我来抢，我把广告素材准备好以后，媒体按排期给我播就行了。所以在这种情况下，我们又要竭力去消除系统的不确定性。

那怎么样去消除系统的不确定性呢？当我们知道的信息越多的时候，自然随机事件的不确定性就越小。举个简单的例子：
如果投掷一枚均匀的筛子，那么筛子出现1-6的概率是相等的，此时，整个系统的熵可以表述为：
$H (c) = - 1 6 log 2 1 6 \times 6 = log 2 6$ $H (c) = - 1 3 log 2 1 3 \times 3 = log 2 3$
因为我们加了一个特征x：结果为偶数，所以整个系统的熵减小，不确定性降低。

来看下条件熵的表达式：
1.当特征
$H (c | X) = - p (x = x 1) H (c | x = x 1) - p (x =$
其中，n为特征

那么因为特征X被固定以后，给系统带来的增益(或者说为系统减小的不确定度)为：
$I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2$
举个别人文章中例子：文本分类系统中的特征X,那么X有几个可能的值呢？注意X是一个固定的特征，比如关键词”经济”，当我们说特征”经济”可能的取值时，实际上只有两个，要么出现，要么不出现。假设
$H (C | X) = - p (x) H (c | x) - p (x ¯) H (C | x ¯$
特征
$I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2$
式子看上去很长，其实计算起来很简单，都是一些count的操作。

3.信息增益做特征选择的优缺点

先来说说优点：
1.信息增益考虑了特征出现与不出现的两种情况，比较全面，一般而言效果不错。
2.使用了所有样例的统计属性，减小了对噪声的敏感度。
3.容易理解，计算简单。

主要的缺陷：
1.信息增益考察的是特征对整个系统的贡献，没有到具体的类别上，所以一般只能用来做全局的特征选择，而没法针对单个类别做特征选择。
2.只能处理连续型的属性值，没法处理连续值的特征。
3.算法天生偏向选择分支多的属性，容易导致overfitting。

4.信息增益比(Infomation Gain Ratio)

前面提到，信息增益的一个大问题就是偏向选择分支多的属性导致overfitting，那么我们能想到的解决办法自然就是对分支过多的情况进行惩罚(penalty)了。于是我们有了信息增益比，或者说信息增益率：
特征
$H (X) = - \sum i = 1 n p i log p i$ $I G (X) = H (c) - H (c | X)$ $g r = H ( c ) - H ( c | X ) H ( X )$
在决策树算法中，ID3使用信息增益，c4.5使用信息增益比。

5.Gini系数

Gini系数是一种与信息熵类似的做特征选择的方式，可以用来数据的不纯度。在CART(Classification and Regression Tree)算法中利用基尼指数构造二叉决策树。
Gini系数的计算方式如下：
$G i n i (D) = 1 - \sum i = 1 n p 2 i$ $Δ G i n i (X) = G i n i (D) - G i n i X (D)$

查看全文

相关阅读:
房地产英语 Real estate词汇
 自制Flash FLV视频播放器
 .net反编译工具Reflector下载
 JQUery插件thickbox
50 Great Photoshop Tutorials for Clever Beginners
AspNet中你或许不知道的技巧（转）
常用的设计网站（收藏）
35 Green and Earthy Photoshop Effects
使用 ASP.NET 2.0 增强网站的安全性
 asp.net中实现登陆的时候用SSL

原文地址：https://www.cnblogs.com/zhangbojiangfeng/p/6806546.html

1.信息熵

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

3.信息增益做特征选择的优缺点

4.信息增益比(Infomation Gain Ratio)

5.Gini系数

1.信息熵

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

3.信息增益做特征选择的优缺点

4.信息增益比(Infomation Gain Ratio)

5.Gini系数