zoukankan      html  css  js  c++  java
  • 方差和样本方差

    概率论中方差用来度量随机变量和其数学期望之间的偏离程度,也称为总体方差

    设总体为 $X$,$X_{1},X_{2},cdots,X_{n}$ 为来自总体的样本,样本容量为 $n$,总体的数学期望和方差分别为 $mu,sigma^{2}$,样本均值为 $ar{X} = frac{1}{n}sum_{i=1}^{n}X_{i}$

    总体方差定义为

    $$sigma^{2} = Eleft [ (X - mu)^{2} ight ]$$

    其实总体方差就是随机变量 $Y = (X - mu)^{2}$ 的均值。将上面这个式子展开就得到我们常用的方差公式:

    $$sigma^{2} = Eleft [ (X - mu)^{2} ight ] = E(X^{2}) - E^{2}(X)$$

    上面的式子需要知道 $X$ 的具体分布是什么,这样才能得到 $X$ 的所有可能取值和其数学期望,但现实中一般不可能会知道。

    所以采用样本方差来估计总体方差,样本方差的形式如下:

    $$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

    为什么前面是 $frac{1}{n-1}$ 而不是 $frac{1}{n}$,假设样本方差的统计量为:

    $$S^{2} = frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

    先来看看这个统计量的期望:

    $$E(S^{2}) = Eleft [ frac{1}{n}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2} ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu) - (ar{X} - mu) igg)^{2} ight ] \
    = Eleft [ frac{1}{n}sum_{i=1}^{n} igg( (X_{i} - mu)^{2} - 2(X_{i} - mu)(ar{X} - mu) + (ar{X} - mu)^{2} igg) ight ] \
    = Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)sum_{i=1}^{n}(X_{i} - mu) + (ar{X} - mu)^{2} igg) ight ]  \
    = Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - frac{2}{n}(ar{X} - mu)n(ar{X} - mu) + (ar{X} - mu)^{2} igg) ight ] \
    = Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} - (ar{X} - mu)^{2} igg) ight ]$$

    因为 $X_{i}$ 和 $X$ 独立同分布,所以有

    $$Eleft [ frac{1}{n}sum_{i=1}^{n}(X_{i} - mu)^{2} ight ] = Eleft [ frac{1}{n}sum_{i=1}^{n} ( X_{i}^{2} - 2X_{i}mu + mu^{2} ) ight ] \
    = frac{1}{n}sum_{i=1}^{n} left [ E(X_{i}^{2}) - mu^{2} ight ] = sigma^{2}$$

    $$E(ar{X}^{2}) = D(ar{X}) + E^{2}(ar{X}) = frac{1}{n}sigma^{2} + mu^{2}$$

    $$Eleft [ (ar{X} - mu)^{2} ight ] = Eleft [ ar{X}^{2} - 2ar{X}mu + mu^{2} ight ] = frac{1}{n}sigma^{2}$$

    所以有

    $$E(S^{2}) = frac{n-1}{n}sigma^{2}$$

    方差统计量的期望不等于总体的方差,会比真实值低了 $frac{1}{n}sigma^{2}$,所以需要进行修正,因此使用下面这个式子进行估计,得到的就是无偏估计:

    $$S^{2} = frac{1}{n - 1}sum_{i=1}^{n}left ( X_{i} - ar{X} ight )^{2}$$

  • 相关阅读:
    13 Memcached 永久数据被踢现象
    PHP 学习内容
    12 Memcached 缓存无底洞现象
    Memcached 常用的方法
    PHP Memcached 面试题
    11 Memcached 缓存雪崩现象
    JQ报表插件
    (2.1)mysql升级与降级
    基于binlog恢复工具mysqlbinlog_flashback
    如何查看正在执行sql的语句及其父语句调用?如何查看正在执行SQL的具体参数值与执行计划?xml执行计划转为图形计划
  • 原文地址:https://www.cnblogs.com/yanghh/p/13806782.html
Copyright © 2011-2022 走看看