描述统计学：极差、方差、标准差

zoukankan html css js c++ java

描述统计学：极差、方差、标准差
变异程度的度量（离散程度的度量）

交货时间的变异性造成按时完成生产任务的不确定性

极差

极差=最大值-最小值

最简单的变异程度的度量

但很少单独用来度量变异程度。仅有两个观测值，异受极端值的影响

四分位数间距

$IQR = Q_{3}-Q_{1}$

能够克服极端值的影响，因为四分位数是中间的50%数据的极差.

方差

是用所有数据对变异程度所做的一种度量。

对于样本平均数的离差= $X_{i}- overline{X}$

对于总体平均数的离差= $X_{i}- mu$

总体方差

$sigma ^{2}=frac{sum (x_{i}-overline{mu })^{2}}{N-1}$

样本方差

$s ^{2}=frac{sum (x_{i}-overline{x})^{2}}{N-1}$

样本方差是总体方差的点估计，平均数的离差之和永远为0。

例子：

第一组的鸡的斤数分别是 2.5，3，3.5
第二组的鸡的斤数分别是 1，3，5

很显然我们能看出第一组鸡看起来重量的差别不大，第二组鸡的差别就很大，因为鸡本身重量并不大，相差两斤的话一下子就能看出来
可是我们发现这两组鸡重量的平均数是一样的，但是这两组鸡却有明显的差别，这是平均数就不能体现二者的差别，所以我们引入了方差的概念

方差越大，说明数据的差别越大。反应了一组数据的稳定性。

标准差

方差的平方根

样本标准差：

$s = sqrt{s ^{2}}$

总体标准差

$sigma = sqrt{sigma ^{2}}$

标准差更容易与平均数等其他统计量进行比较，这是由于它们的单位与原始数据是相同的。

标准差系数

（标准差/平均数）*100%

在变量的标准差和平均数都不相同时，比较它们的变异程度，标准差系数是一个有用的统计量。

练习
1. 考虑数据值为10，20，12，17和16的一个样本，计算方差和标准差。
```
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 标准差
data.std()
1.7677669529663689
```
```
new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 标准差
data.std()
8.67179335547152
# 平均数
data.mean()
178.0
# 极差
data.max()-data.min()
22
# 标准差系数
(data.std()/data.mean())*100%
4.87%
```
```
# 平均数
car.mean()
38.0
# 标准差
car.std()
9.848857801796104
# 方差
car.var()
97.0
```
虽让东西部的租车费用的平均数相同，但是标准差东部的数值远远大于西部的，可见东部的各个城市间的租车费用差异性比较大，离散度较高，西部的各个城市间的租车费用相对来说差别不大，比较稳定。
```
dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=['dawson','clark'])
shopT = shop.T
shopT

    dawson	clark
0	11	8
1	10	10
2	9	13
3	10	7
4	11	10
5	11	11
6	10	10
7	11	7
8	10	15
9	10	12

diff_vale = shopT.max()-shopT.min()
diff_vale
# 极差
dawson    2
clark     8

s = shopT.std()
s
# 标准差
dawson    0.674949
clark     2.584140
```
由两家的极差和标准差可见，稳定性dawson远远高于clark。
```
Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均数
golf_person.mean(axis=1)
2005    76.0
2006    76.0
# 标准差
golf_person.std(axis=1)
2005    2.070197
2006    5.264436

golf_person.T.describe()
        2005	        2006
count	8.000000	8.000000
mean	76.000000	76.000000
std	2.070197	5.264436
min	73.000000	70.000000
25%	74.750000	71.000000
50%	76.000000	76.000000
75%	77.250000	79.250000
max	79.000000	85.000000
```
虽然平均数是相同的，但是看的出来，2006年的比赛，心态并不稳定，但是最大值和最小值的差值从2005的6，2006年的15反映出该运动员的水平是得到了提高的。
查看全文

相关阅读:
找正环的最快方法！！
树重量的神仙问题
 2019 ICPC南昌网络赛 B题
 洛谷p-1522又是Floyd
poj3471
洛谷p1119--灾难后重建（Floyd不仅仅是板子）
并查集的超市问题---溜TM的
 利用主席树搞区间不同值的和
 acwing 102 -利用二分枚举区间平均值
 Week__8

原文地址：https://www.cnblogs.com/lishi-jie/p/9924590.html

描述统计学：极差、方差、标准差

变异程度的度量（离散程度的度量）

极差

四分位数间距

方差

总体方差

样本方差

样本方差是总体方差的点估计，平均数的离差之和永远为0。

标准差

样本标准差：

总体标准差

标准差系数

练习