zoukankan      html  css  js  c++  java
  • 统计学基础之常用统计量和抽样分布

    目录:

    一、统计量

     1、概念

    2、常用统计量

    二、抽样分布

     1、常见三大抽样分布


    一、统计量:

    1、概念:

            统计量是统计理论中用来对数据进行分析、检验的变量。在实际应用中,当我们从某个总体中抽取一个样本(X1,X2,X3......,Xn)后,并不能直接用它对总体的有关性质和特征进行推断,因为样本虽说是从总体中获取的代表,含有总体性质的信息,但还是会比较分散。当我们需要将统计的推断变成可能的,必须要把分散在样本中的信息集中起来,针对不同的目的,构造不同的样本函数,这种函数在统计学中成为统计量。

            统计量是样本的一个函数。有样本构造具体的统计量,实际是对样本所含的总体信息按照一些要求进行加工处理,把分散在样本中的信息集中都统计量的取值上。不同的统计推断问题要求构造不同的统计量。统计量是统计推断的基础,相当于概率论中的随机变量。在统计量的公式中不能依赖于总体分布的未知参数,如包含E(X),D(X)的都不是统计量。

    2、常用统计量:

      一般在概率论中,将数学期望和方差等概念用‘矩’的概念描述。当n充分大时,有定理可以保证经验分布函数Fn(x)很靠近总体分布函数F(x)。所以,经验分布函数Fn(x)的各阶矩就反映了总体各阶矩的信息。通常把经验分布函数的各阶矩称为样本各阶矩。常用的样本各阶矩及其函数都是实际应用中的具体统计量。

    2.1、样本均值

    ,反映出总体X数学期望的信息。

    2.2、样本方差

    ,反映的是总体X方差的信息

    2.3、样本变异系数

    ,反映出总体变异系数C的信息。其中变异系数定义为,反映出随机变量在以它的均值为单位时取值的离散程度。消除了均值不同对不同总体的离散程度的影响,用来刻画均值不同时不同总体的离散程度。可应用与投资项目的风险分析、不同群体或行业的收入差距描述中。

    2.4、样本k阶矩

    ,称为样本k阶矩。反映了总体k阶矩的信息。m1即即样本均值。

    2.5、样本k阶中心矩

    ,称为样本k阶中心矩。反映出总体k阶中心矩的信息。即样本方差。

    2.6、样本偏度

    ,反映了总体偏度的信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜型。若X~N(μ,σ2),则偏度为0。

    2.7、样本峰度

    ,反映出总体峰度的信息。峰度反映了密度函数曲线在众数附近的“峰”的尖峭程度。正态随机变量X~N(μ,σ2)的峰度为0。偏度和峰度多应用在质量控制和可靠性研究中。

    2.8、次序统计量

      设 X1,X2, …, Xn是取自总体X的样本,X(i) 称为该样本的第i个次序统计量,它的取值是将样本观测值由小到大排列后得到的第i个观测值。从小到大排序为x(1),x(2), …,x(n),则称X(1),X(2), …,X(n)为顺序统计量。

      则

      

      (1) 最小顺序统计量 
      (2)最大顺序统计量
      (3) 极差(Range) 
      (4)四分位极差(iql) 
      样本X1,X2,…,Xn是独立同分布的,而次序统计量X(1),X(2),…,X(n) 则既不独立,分布也不相同。 

    2.9、充分统计量

     设  是来自分布函数  的样本  是一个统计量,如果在给定  的条件下,x的分布与  无关,则称统计量  为  的充分统计量。

    一个统计量  是参数  的充分统计量,其充分必要条件是存在一个t与  的函数  和一个样本的函数  ,使得对于任何一个样本x和任意的  ,样本的联合密度函数  可以表示为它们的乘积,即


    二、抽样分布

      抽样分布、参数估计、假设检验是统计推断的重要内容。研究统计量的性质和评价一个统计推断的优良性,完全取决于抽样分布的性质。 

      在总体X的分布类型已知时,若对任一自然数n都能导出统计量T = T(X1,X2,...,Xn)的分布的数学表达式,这种分布称为精确的抽样分布,对于样本量n较小的统计推断问题很有作用。精确的抽样分布大多是在正态总体情况下得到的。在正态总体的体检下,主要有分布,t分布,F分布。

    2.1、分布

      设随机变量X1,X2,...,Xn相互独立,且Xi(i=1,2,...,n)服从标准正态分布N(0,1),则它们的平方和服从自由度为n的分布。

      自由度是统计学常用的概念,可以理解为独立变量的个数,也可理解为二次型的秩。如:Y=X2是自由度为1的分布,rank(Y)=1;Z=是自由度为n的分布,rank(Z)=n。

      分布的数学期望为E()=n,方差为D()=2n。

      分布具有可加性,即若~(n1),~(n2),且独立,则+~(n1+n2)。

      当自由度足够大时,分布的概率密度曲线趋于对称。当n--->+∞时,分布的极限分布是正态分布。

    2.2、t分布

    设随机变量X~N(0,1),Y~(n),且X与Y独立,则,记t(n).。n为自由度。t分布的密度函数是一偶函数。其密度函数与标准正态分布和很相似,都为单峰偶函数。

    2.3、F分布

    主要应用于方差分析、回归方程的显著性检验中。

    设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n 的分布,随机变量,则称X服从第一自由度m,第二自由度为n的F分布,记为F(m,n)。两个自由度的位置不可互换。

    如果随机变量X服从t(n)分布,则X2服从F(1,n)的F分布。

    2.4、样本均值的分布与中心极限定理

    总体分布为正太分布的样本均值的分布。

    当总体分布为正态分布N(μ,σ2)时,的抽样分布仍为正态分布,期望为μ,方差为σ2/n。

    中心极限定理:设从均值μ,方差σ2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。


    本文参考中国人民大学出版社《统计学》第七版

     

     

  • 相关阅读:
    NSPredicate
    label 下划线加自动换行
    【搬运】快速增加文档注释
    NSSortDescriptor 数组排序
    【搬运】打开模拟器沙盒目录
    NSTimer 详解
    Android打开外部DB文件
    图片压缩与缓存
    StartService与BindService
    Android发送通知栏通知
  • 原文地址:https://www.cnblogs.com/zym-yc/p/11353805.html
Copyright © 2011-2022 走看看