zoukankan      html  css  js  c++  java
  • 正态分布及标准化

    正态分布】(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

    正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

    当μ = 0,σ = 1时的正态分布是标准正态分布

    正态分布有两个参数,即期望(均数)μ 和 标准差σ,σ2为方差。

    μ是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小。正态分布以X=μ为对称轴,左右完全对称。正态分布的期望、均数中位数、众数相同,均等于μ。

    σ(标准差)描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。

    一个标准差 68%, 两个标准差 95%, 三个标准差 99%。

     

    高斯分布怎么来的,很简单。只要所观察的系统里,各种对象之间关联很弱(相互独立?),那么他们的总和平均表现,根据中心极限定律,就是高斯或者近高斯的。

    高斯分布的信息熵最大。即,高斯分布是最混乱系统。

    自然界最多的不是正态(高斯)分布,而是长尾(幂律等)分布。

     

    中心极限定理】——如果一个指标受到若干独立的因素的共同影响,且每个因素不能产生支配性的影响(Lindeberg 条件),那么这个指标就服从中心极限定理,收敛到正态分布,这就是林德伯格-费勒中心极限定理的意思。

     

    很多个因素独立同分布并且可以叠加,那么叠加结果就会接近正态分布。我看的参考书上把这个叫做中心极限定理。

     

    我们人造的东西,很多都是模块化的,比如汽车轮船飞机,桌子椅子板凳,等等。我们人类造东西,都是“搭”出来的,一个模块和另一个模块之间关联很弱,坏了一个模块换掉就好。所以人造系统,其表现,包括性能啊,噪声啊,稳定度啊,都基于高斯分布。

     

    误差分布导出的极大似然估计 = 算术平均值

    正态标准化

    假设我们有一个X向量,x(i,j),i = 1,..,m;j = 1,..,n。z_score规范化如下:

    x(i,j)' = [x(i,j) - E(j)] / S[j],即x(i,j) 减去第j列的均值再除以第j列的标准差

    这样处理之后,原数据就变成了均值为0,方差为1,记作:

    X' = [X - E(X)] / S(X),其中,E(X) = 0, S(X) = 1。

  • 相关阅读:
    Django之model补充:一对多、跨表操作
    Ajax
    Django之model详解
    Django补充之模板语言
    Django基础篇
    web框架
    linux下命令学习
    make: Warning: File `Makefile' has modification time 17 s in the future
    linux下复制文件报cp: omitting directory `XXX'
    关于控制台程序下使用mfc库中的函数时断言
  • 原文地址:https://www.cnblogs.com/quietwalk/p/8274724.html
Copyright © 2011-2022 走看看