zoukankan      html  css  js  c++  java
  • 机器学习之数据预处理

      在使用机器学习与数据挖掘算法时,我们常常并不直接接触底层的算法模型,而是将数据处理成模型需要格式,送入到算法模型即可。

      在做数据预处理的是,需要将数据归一化(Data Standardization)。由于一个样本的各个特征,并不一定具有相同的度量单位与粒度。比如统计鲸鱼的两个属性(年龄,重量)作为表述鲸鱼的特征。x(i)=(1,1000),x(j)=(3,2000)。在将样本送给算法模型时,由于重量的特征值数值上远远大于年龄特征值,模型学习到重要性更倾向于重量这个更特征,使用欧式距离计算两个样本的距离时:

           

    在数据不是同一种力度夏,第一部分特征(年龄)起的作用就很小很小,几乎被忽略,因此我们必须数据归一化。

      根据数据类型的不同可以分为离散型归一化、连续型归一化。离散型的归一化的一般方法,是将多项事件模型(multinomial event model)转换成二元事件模型( Bernoulli distribution)。比如样本的某个特征属性表示的天气状态,假设有(晴天,阴天,下雨天,下雪天)四种。我们可以将这种特征变成四个二元特征:晴天、阴天、下雨天、下雪天四个特征,都是二元离散属性。某些算法针对离散特征归一化问题做了模型处理。比如Naive Bayes模型,最原始是二元事件模型(针对文本分类中布尔型特征,后人又将其扩展成多项事件模型(针对文本中词频特征)。

      而连续性特征的归一化,常用有两种方法。一种是区间法,另种是Z得分发。区间法的征值均匀投影到[0,1]之间,我们可以采用的最简单方法:

            

    其中xi 表示样本x的第i个特征,而min(i)、max(i)则表示样本第i特征的最小值与最大值。而Z得分法,则使用统计方法将特征值投影到[0,1]之间:

     其中ui 表示特征项i的均值,σ 表示特征项i的方差。

  • 相关阅读:
    面向对象的七大设计原则
    06章 初始继承和多态
    面向太阳,不问春暖花开
    05章 体检套餐管理系统
    02章《深入C#数据类型》项目经理评分
    MongoDB快速入门(十二) -- 索引
    MongoDB快速入门(十一)- sort() 方法
    MongoDB快速入门(十)- Limit(),Skip() 方法
    MongoDB快速入门(九)- 投影
    MongoDB快速入门(八)- 删除文档
  • 原文地址:https://www.cnblogs.com/wangbogong/p/2976271.html
Copyright © 2011-2022 走看看