机器学习之数据预处理

zoukankan html css js c++ java

机器学习之数据预处理

　　在使用机器学习与数据挖掘算法时，我们常常并不直接接触底层的算法模型，而是将数据处理成模型需要格式，送入到算法模型即可。

　　在做数据预处理的是，需要将数据归一化（Data Standardization)。由于一个样本的各个特征，并不一定具有相同的度量单位与粒度。比如统计鲸鱼的两个属性（年龄，重量）作为表述鲸鱼的特征。x⁽ⁱ⁾=(1,1000),x^(j)=(3,2000)。在将样本送给算法模型时，由于重量的特征值数值上远远大于年龄特征值，模型学习到重要性更倾向于重量这个更特征，使用欧式距离计算两个样本的距离时：

在数据不是同一种力度夏，第一部分特征（年龄）起的作用就很小很小，几乎被忽略，因此我们必须数据归一化。

　　根据数据类型的不同可以分为离散型归一化、连续型归一化。离散型的归一化的一般方法，是将多项事件模型（multinomial event model）转换成二元事件模型（ Bernoulli distribution）。比如样本的某个特征属性表示的天气状态，假设有（晴天，阴天，下雨天，下雪天）四种。我们可以将这种特征变成四个二元特征：晴天、阴天、下雨天、下雪天四个特征，都是二元离散属性。某些算法针对离散特征归一化问题做了模型处理。比如Naive Bayes模型，最原始是二元事件模型（针对文本分类中布尔型特征，后人又将其扩展成多项事件模型（针对文本中词频特征）。

　　而连续性特征的归一化，常用有两种方法。一种是区间法，另种是Z得分发。区间法的征值均匀投影到[0,1]之间，我们可以采用的最简单方法：

　　　　　　　　

其中x_i 表示样本x的第i个特征，而min(i)、max(i)则表示样本第i特征的最小值与最大值。而Z得分法，则使用统计方法将特征值投影到[0,1]之间：

其中u_i表示特征项i的均值，σⁱ 表示特征项i的方差。

查看全文

相关阅读:
尝试MVP模式
 ERP框架开发中的License许可验证机制设计与实现 (包含源代码下载)
25个增强iOS应用程序性能的提示和技巧
 BarCode条形码基于C# GDI+ 的实现
 Visual Studio ALM + Team Foundation Server Blog
通过分析内存来优化.NET程序
 Zachman框架
 常用的微软软件和下载地址
 Windows Live Writer for cnblogs
TDD：MS自带的单元测试之线程模型和执行顺序

原文地址：https://www.cnblogs.com/wangbogong/p/2976271.html