数据挖掘模型中的IV和WOE详解

zoukankan html css js c++ java

数据挖掘模型中的IV和WOE详解

IV: 某个特征中某个小分组的响应比例与未响应比例之差乘以响应比例与未响应比例的比值取对数

数据挖掘模型中的IV和WOE详解

http://blog.csdn.net/kevin7658/article/details/50780391

用 iv而不用woe原因：

4.关于IV和WOE的进一步思考

4.1 为什么用IV而不是直接用WOE

从上面的内容来看，变量各分组的WOE和IV都隐含着这个分组对目标变量的预测能力这样的意义。那我们为什么不直接用WOE相加或者绝对值相加作为衡量一个变量整体预测能力的指标呢？

并且，从计算公式来看，对于变量的一个分组，IV是WOE乘以这个分组响应占比和未响应占比的差。而一个变量的IV等于各分组IV的和。如果愿意，我们同样也能用WOE构造出一个这样的一个和出来，我们只需要把变量各个分组的WOE和取绝对值再相加，即（取绝对值是因为WOE可正可负，如果不取绝对值，则会把变量的区分度通过正负抵消的方式抵消掉）：

那么我们为什么不直接用这个WOE绝对值的加和来衡量一个变量整体预测能力的好坏，而是要用WOE处理后的IV呢。

我们这里给出两个原因。IV和WOE的差别在于IV在WOE基础上乘以的那个，我们暂且用pyn来代表这个值。

第一个原因，当我们衡量一个变量的预测能力时，我们所使用的指标值不应该是负数，否则，说一个变量的预测能力的指标是-2.3，听起来很别扭。从这个角度讲，乘以pyn这个系数，保证了变量每个分组的结果都是非负数，你可以验证一下，当一个分组的WOE是正数时，pyn也是正数，当一个分组的WOE是负数时，pyn也是负数，而当一个分组的WOE=0时，pyn也是0。

当然，上面的原因不是最主要的，因为其实我们上面提到的这个指标也可以完全避免负数的出现。

更主要的原因，也就是第二个原因是，乘以pyn后，体现出了变量当前分组中个体的数量占整体个体数量的比例，对变量预测能力的影响。怎么理解这句话呢？我们还是举个例子。

假设我们上面所说的营销响应模型中，还有一个变量A，其取值只有两个：0,1，数据如下：

我们从上表可以看出，当变量A取值1时，其响应比例达到了90%，非常的高，但是我们能否说变量A的预测能力非常强呢？不能。为什么呢？原因就在于，A取1时，响应比例虽然很高，但这个分组的客户数太少了，占的比例太低了。虽然，如果一个客户在A这个变量上取1，那他有90%的响应可能性，但是一个客户变量A取1的可能性本身就非常的低。所以，对于样本整体来说，变量的预测能力并没有那么强。我们分别看一下变量各分组和整体的WOE，IV。

从这个表我们可以看到，变量取1时，响应比达到90%，对应的WOE很高，但对应的IV却很低，原因就在于IV在WOE的前面乘以了一个系数，而这个系数很好的考虑了这个分组中样本占整体样本的比例，比例越低，这个分组对变量整体预测能力的贡献越低。相反，如果直接用WOE的绝对值加和，会得到一个很高的指标，这是不合理的。

查看全文

相关阅读:
Java 类和Static关键字
 算法与数据结构实验题 6.4 Summary
Django-----vue结合上传图片
 Django----模板继承&过滤器
 Django-----多对多示例查询
 Django-----验证码
 Django-----序列化--jwt
Django-----文件配置
 Django-----删除--批量删除
 Django-----图文混排

原文地址：https://www.cnblogs.com/zhangbojiangfeng/p/6699359.html

数据挖掘模型中的IV和WOE详解

4.关于IV和WOE的进一步思考

4.1 为什么用IV而不是直接用WOE