其中,
A:包含特征词w且属于类别c的文档频数
B:包含特征词w但不属于类别c的文档频数
C:属于类别c但不包含特征词w的文档频数
D:既不属于c也不包含特征词w的文档频数
N:文档总数
CHI统计方法用来度量特征词w和类别c之间的相关度。
当值为零时,表示特征值w和c相互独立;值越大,表示相关性越强,此时特征值w包含类别c相关的鉴别信息越多。
去除特征词与类别负相关情况: