zoukankan      html  css  js  c++  java
  • 数据归一化(标准化)

    数据归一化

    数据预处理中,标准的第一步是数据归一化。虽然这里有一系列可行的方法,但是这一步通常是根据数据的具体情况而明确选择的。特征归一化常用的方法包含如下几种:

    • min-max标准化
    • 逐样本均值消减(也称为移除直流分量)
    • Z-score

      标准化(使数据集中所有特征都具有零均值和单位方差)

    min-max标准化(Min-Max Normalization)(线性函数归一化)

    定义:也称为离差标准化,是对原始数据的线性变换,使得结果映射到0-1之间。

    本质:把数变为[0,1]之间的小数。

    转换函数:(X-Min/(Max-Min)

    如果想要将数据映射到[-1,1],则将公式换成:(X-Mean/(Max-Min)

    其中:max为样本数据的最大值,min为样本数据的最小值,Mean表示数据的均值。

    缺陷:当有新数据加入时,可导致max和min的变化,需要重新定义。

    Z-score标准化

    定义:这种方法给与原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1.

    本质:把有量纲表达式变成无量纲表达式。

    转换函数:(X-Mean)/(Standard deviation)

    其中,Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

    逐样本均值消减

    如果你的数据是平稳的(即数据每一个维度的统计都服从相同分布),那么你可以考虑在每个样本上减去数据的统计平均值(逐样本计算)。

    Eg:对于图像,这种归一化可以移除图像的平均亮度值 (intensity)。很多情况下我们对图像的照度并不感兴趣,而更多地关注其内容,这时对每个数据点移除像素的均值是有意义的。

    注意:虽然该方法广泛地应用于图像,但在处理彩色图像时需要格外小心,具体来说,是因为不同色彩通道中的像素并不都存在平稳特性。

  • 相关阅读:
    Shared Memory in Windows NT
    Layered Memory Management in Win32
    软件项目管理的75条建议
    Load pdbs when you need it
    Stray pointer 野指针
    About the Rebase and Bind operation in the production of software
    About "Serious Error: No RTTI Data"
    Realizing 4 GB of Address Space[MSDN]
    [bbk4397] 第1集 第一章 AMS介绍
    [bbk3204] 第67集 Chapter 17Monitoring and Detecting Lock Contention(00)
  • 原文地址:https://www.cnblogs.com/jiangkejie/p/10103580.html
Copyright © 2011-2022 走看看