1. 样本空间
随机试验 $E$ 的所有基本结果组成的集合为 $E$ 的样本空间。样本空间中的数据元素具有唯一性,不能重复。
2. 总体
所研究对象的某项数量指标取值的全体称为总体,用随机变量 $X$ 表示。比如我们要研究亚洲人的身高分布,那所有亚洲人的身高数据就构成
总体。总体中数据个数大于等于样本空间中的数据个数,比如 100 个人身高全为 2m,那么总体就是 100 个 2m,而样本空间就只有一个 2m。
3. 个体
总体中的一个元素称为个体。比如某一个人的身高。
4. 简单随机样本
由于总体太过庞大,我们总不能真的统计全部亚洲人的身高,于是我们采用抽样的手段,在亚洲人中抽出 10000 人,用这 10000 人的身高分布来代
表总体的身高分布,这 10000 次抽样相互独立。我们现在只研究一次抽样:假如总体是 $left { 0.1, 0.2, 0.2, 0.3, 0.3, 0.3 ight }$,那么可以认为我们抽取出的这一
个人有 $frac{1}{6}$ 的概率身高为 0.1,有 $frac{1}{3}$ 的概率身高为 0.2,有 $frac{1}{2}$ 的概率身高为 0.3。由于每次抽样之前,不会知道抽样的结果,所以用一个随机变量
来表示,将这 10000 次的抽样结果记为随机变量 $X_{1},X_{2},...X_{n}$,称为简单随机样本,简称样本,它们的具体观察值 $x_{1},x_{2},...x_{n}$ 称为样本值。
样本与总体同分布,每一个个体都是一维随机变量,所以样本是多维,总体是一维。这就和投硬币一样.投一次是一维随机变量.投多次是多维随机变量。
注意:总体是概率分布角度,是理论上的,样本是统计角度,是实际观察到的,两者是不同的。
5. 统计量
样本 $X_{1},X_{2},...X_{n}$ 不含参数的函数 $T = T(X_{1},X_{2},...X_{n})$ 称为统计量,也称样本统计量。常见的样本统计量有:样本均值、样本方差等。
我们需要认识到样本统计量本身也是一个随机变量,这是因为每次抽样的结果具有不确定性,即样本具有不确定性,那么样本的函数当然也具有不确定性。
6. 抽样分布
样本统计量这个随机变量的分布即为抽样分布。总体数据那么大不可能一个一个的进行分析,只能拿一些样本分析,这样就需要抽样,但是我们要研
究的并不是单纯的数据,而是数据的一些特征,如均值、方差等,所以对数据进行加工换算,得到样本统计量。以样本均值为例:
$$overline{X} = frac{1}{n}sum_{i=1}^{n}X_{i}$$
每经过一轮抽样(每轮 $n$ 次),会算出不同的样本均值,随着样本量 $n$ 的增大,不论总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布。
那这个统计量如何同总体的特征联系起来呢?两者之间通过大数定律进行联系,当样本容量 $n$ 足够大时,有
$$frac{1}{n}sum_{i=1}^{n}X_{i}overset{P}{ ightarrow}E(X)$$
所以,样本足够大时,可以用样本均值来估计总体均值。
那为什么研究统计量的分布呢?通过研究这个分布,目的是评估样本估计的合理性、有效性及误差等,如可以证明样本均值是总体均值的无偏估计:
$$E(overline{X}) = E(frac{1}{n}sum_{i=1}^{n}X_{i}) = frac{1}{n}sum_{i=1}^{n}E(X_{i}) = frac{1}{n} cdot n cdot E(X)=E(X)$$