无监督分箱法:
等距划分、等频划分
等距分箱
从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份里面的实例数量可能不等。
等频分箱
区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。
以上两种算法的弊端
比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。
“最优分箱化”过程通过将每个变量的值分布到分箱中离散化一个或多个刻度变量(因此称为分箱化输入变量)。分箱的构成根据“监督”分箱化过程的分类向导变量得以最优化。然后,可以使用分箱而非原始数据值进行进一步的分析。
示例。减少变量具有的不同值的数量具有多种用途,包括:
- 其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如,“交叉表格”过程要求所有变量均为分类变量。
- 数据隐私。报告分箱化值而不是实际值可帮助保护数据源的隐私。“最优分箱”过程可指导分箱的选择。
- 速度性能。有些过程在处理较少数量的不同值时更加有效。例如,使用离散化变量时“多项 Logistic 回归”的速度会提高。
- 揭示数据的完全分离或准完全分离。
最优分箱化与可视分箱化。“可视分箱化”对话框提供了多种不使用向导变量创建分箱的自动方法。这些“未受监督”的规则对于生成描述统计(例如频率表)十分有用,但如果最终目标是生成预测模型,则“最优分箱化”更好。
输出。该过程生成分箱的分割点以及每个分箱化输入变量的描述统计的表。此外,您可以将新变量保存到包含分箱化输入变量的分箱化值的活动数据集中,并将分箱化规则作为命令语法保存以便用于分箱化新数据。
最优分箱化数据注意事项
数据。此过程需要分箱化输入变量是数值型刻度变量。向导变量应是分类变量,可以是字符串或数值。
获取最优分箱化
- 从菜单中选择:
- 选择一个或多个分箱化输入变量。
- 选择一个向导变量。