特征离散化处理
问题抽象
假设训练样本集合D中有n个样本,考察对连续属性a的最佳分段点/划分点。
若属性a在这n个样本中有m个不同的取值(m<=n),对这m个值两两之间取中点,可获得m-1个中点作为候选划分点。
选择过程
接下来的选择最佳划分点过程和离散属性的虚选择过程类似,以基尼系数或信息增益作为度量,选择使度量值最大的候选划分点作为最佳划分点。
假设我把这0~5的值分成5份,0~1,1~2,2~3,3~4,4~5,那么,我们就有5个离散化的范围了,对每个分类点计算信息增益,(也就是一共计算五次),取最大的一个作为分段点。