特征分类
对特征进行分类,对于不同的特征应该有不同的处理方法。
根据不同的分类方法,可以将特征分为
(1)Low level特征和High level特征。
Low level特征——较低级别的特征,主要是原始特征,不需要或者需要非常少的人工处理和干预。
High level特征——经过较复杂的处理,结合部分业务逻辑或者规则、模型得到的特征。
(2)稳定特征与动态特征。
(3)二值特征、连续特征、枚举特征。
特征分类后要对特征进行处理
包括1.特征归一化,离散化,缺省值处理。2.特征降维方法。3.特征选择方法等。——主要用于单个特征的处理。
-
归一化 不同的特征有不同的取值范围,在有些算法中,例如线性模型或者距离相关的模型像聚类模型、knn模型等,特征的取值范围会对最终的结果产生较大影响,例如二元特征的取值范围为[0,1],而距离特征取值可能是[0,正无穷),在实际使用中会对距离进行截断,例如[0,3000000],但是这两个特征由于取值范围不一致导致了模型可能会更偏向于取值范围较大的特征,为了平衡取值范围不一致的特征,需要对特征进行归一化处理,将特征取值归一化到[0,1]区间。 常用的归一化方法 包括 1.函数归一化 通过映射函数将特征取值映射到[0,1]区间,例如最大最小值归一化方法,是一种线性的映射。还有通过非线性函数的映射,例如log函数等。 2.分维度归一化 可以使用最大最小归一化方法,但是最大最小值选取的是所属类别的最大最小值,即使用的是局部最大最小值,不是全局的最大最小值。 3.排序归一化 不管原来的特征取值是什么样的,将特征按大小排序,根据特征所对应的序给予一个新的值。
-
离散化 在上面介绍过连续值的取值空间可能是无穷的,为了便于表示和在模型中处理,需要对连续值特征进行离散化处理。 常用的离散化方法 包括 1.等值划分 将特征按照值域进行均分,每一段内的取值等同处理。例如某个特征的取值范围为[0,10],我们可以将其划分为10段,[0,1),[1,2),...,[9,10)。 2.等量划分 根据样本总数进行均分,每段等量个样本划分为1段。例如距离特征,取值范围[0,3000000],现在需要切分成10段,如果按照等比例划分的话,会发现绝大部分样本都在第1段中。使用等量划分就会避免这种问题,最终可能的切分是[0,100),[100,300),[300,500),..,[10000,3000000],前面的区间划分比较密,后面的比较稀疏。
-
缺省值处理 有些特征可能因为无法采样或者没有观测值而缺失,例如距离特征,用户可能禁止获取地理位置或者获取地理位置失败,此时需要对这些特征做特殊的处理,赋予一个缺省值。缺省值如何赋予,也有很多种方法。例如单独表示,众数,平均值等。