正态分布是连续型随机变量概率分布中的一种,你几乎能在各行各业中看到他的身影,自然界中某地多年统计的年降雪量、人类社会中比如某地高三男生平均身高、教育领域中的某地区高考成绩、信号系统中的噪音信号等,大量自然、社会现象均按正态形式分布。
正态分布中有两个参数,一个是随机变量的均值 μμ,另一个是随机变量的标准差 σσ,他的概率密度函数 PDF 为:fX(x)=1√2πσe−(x−μ)2/(2σ2)fX(x)=12πσe−(x−μ)2/(2σ2)。
当我们指定不同的均值和标准差参数后,就能得到不同正态分布的概率密度曲线,正态分布的概率密度曲线形状都是类似的,他们都是关于均值 μμ 对称的钟形曲线,概率密度曲线在离开均值区域后,呈现出快速的下降形态。
这里,我们不得不专门提一句,当均值 μ=0μ=0,标准差 σ=1σ=1 时,我们称之为标准正态分布。
还是老规矩,眼见为实,下面来观察两组正态分布的概率密度函数取值,一组是均值为 00,标准差为 11 的标准正态分布。另一组,我们取均值为 11,标准差为 22。
代码片段:
from scipy.stats import norm
import matplotlib.pyplot as plt
import numpy as np
import seaborn
seaborn.set()
fig, ax = plt.subplots(1, 1)
norm_0 = norm(loc=0, scale=1)
norm_1 = norm(loc=1, scale=2)
x = np.linspace(-10, 10, 1000)
ax.plot(x, norm_0.pdf(x), color='red', lw=5, alpha=0.6, label='loc=0, scale=1')
ax.plot(x, norm_1.pdf(x), color='blue', lw=5, alpha=0.6, label='loc=1, scale=2')
ax.legend(loc='best', frameon=False)
plt.show()