1. 假设在考试的多项选择中,考生知道正确答案的概率为$p$,猜测答案的概率为$1-p$,并且假设考生知道正确答案答对题的概率为1,猜中正确答案的概率为$frac{1}{m}$,其中$m$为多选项的数目。那么已知考生答对题目,求他知道正确答案的概率。
记事件$A$为考生答对题,事件$B$为考生知道正确答案。则有:
考生知道正确答案的概率 $P(B) = p$
考生在知道正确答案的情况下答对题的概率 $P(A|B) = 1$
考生在不知道正确答案的情况下猜中答案的概率 $P(A|ar{B}) = frac{1}{m}$
根据贝叶斯公式:
egin{align*}
P(B|A) &= frac{P(B)cdot P(A|B)}{P(B)cdot P(A|B)+P(ar{B})cdot P(A|ar{B})} \
&= frac{p}{p+(1-p)cdot frac{1}{m}}
end{align*}
2. 假设硬币正面向上的概率为$p$。我们抛掷硬币$N$次,令$X$表示正面向上的次数,则$X$为一个二项分布的随机变量。我们直观感觉$X$应该和$N_{p}$很接近。为了验证该结论是否正确,我们重复多次试验,取$X$的平均值,比较$X$的平均值和$N_{p}$的接近程度。比较$p=0.3,N=10,100,1000$和$p=0.03,N=10,100,1000$。给出试验次数$N$与正面向上比率的函数图。
这道题先不做了
4、 理解抽样分布(sampling distribution)。令$X_{1},cdots X_{N}$为独立同分布样本(IID),其均值和方差分别为$mu $和$sigma ^{2}$。则样本均值为
$ar{X}_{N} = frac{1}{N}sum_{N}^{i=1}X_{i}$为一统计量,是数据的函数。由于$ar{X}_{N}$也是随机变量,因此也可对其进行分布进行描述,该分布称为统计量的抽样分布。请不要将$X_{i}$的分布函数$p_{X}$与$ar{X}_{N}$的分布$p_{ar{X}_{N}}$混淆。为了更清楚地认识到这一点,我们假设$X_{1},cdots ,X_{N} sim Unif[0,1]$,画出$p_{X}$。
(1) 计算理论的$E(ar{X}_{N})$和$V(ar{X}_{N})$,分析并画出当N 变化时二者的变化。
(2) 模拟得到$ar{X}_{N}$的分布。取$N = 5, 10, 25, 50, 100$,从$X_{1},cdots ,X_{N} sim Unif[0,1]$得到$N$个样本,计算$ar{X}_{N} = frac{1}{N}sum_{N}^{i=1}X_{i}$得到$ar{X}_{N}$的一个样本。上述过程重复100 次,可得到$ar{X}_{N}$的100 个样本。计算100 个$ar{X}_{N}$样本的样本均值$hat{mu }_{ar{X}_{N}} = frac{1}{100}sum_{i=1}^{100}ar{X}_{Ni}$作为$E(ar{X}_{N})$的估计,100 个$ar{X}_{N}$样本的样本方差${hat{sigma }_{ar{X}_{N}}}^{2} = frac{1}{100}left { sum_{i=1}^{100}ar{X}_{Ni} - hat{mu }_{ar{X}_{N}} ight }^{2}$作为 $V(ar{X}_{N})$的估计,观察该估计值与(1)中理论值的差异。当N 变化时,该差异有何变化规律?
(1)、
egin{align*}
E(ar{X}) &= E(frac{1}{n}sum X_{i}) &cdotscdotscdots (1) \
&= frac{1}{n}E(sum X_{i}) &cdotscdotscdots (2) \
&= frac{1}{n}sum E(X_{i}) &cdotscdotscdots (3) \
&= (frac{1}{n})nmu &cdotscdotscdots (4) \
&= mu &cdotscdotscdots (5)
end{align*}
其中,(2)由期望的性质可得。(3)由多维随机变量期望的性质可得(可参考茆诗松版《概率论与数理统计》167页)。
egin{align*}
V(ar{X}) &= V(frac{1}{n}sum X_{i}) &cdotscdotscdots (1) \
&= frac{1}{n^{2}}V(sum X_{i}) &cdotscdotscdots (2) \
&= frac{1}{n^{2}}sum V(X_{i}) &cdotscdotscdots (3) \
&= (frac{1}{n^{2}})nsigma ^{2} &cdotscdotscdots (4) \
&= frac{sigma ^{2}}{n} &cdotscdotscdots (5)
end{align*}
其中,(2)由方差的性质可得。(3)由相互独立的多维随机变量的方差计算性质可得(可参考茆诗松版《概率论与数理统计》168页)。
(2)、
在python中取随机数来模拟均匀分布,完成题目要求的实验,代码如下:
from numpy import random import numpy as np # 获取独立同均匀分布样本的均值 # para size 样本数量 def get_sample_average(size): sample = random.rand(size) return sample.sum()/size for N in [5, 10, 25, 50, 100, 200, 500, 800, 1000]: # 定义均值的样本空间 averageSample = [] # 按照题目要求,实验重复100次 for i in range(0, 100): averageSample.append(get_sample_average(N)) averageSample = np.array(averageSample) print("N = %d,expectation = %f,variance = %f" % (N, averageSample.mean(), averageSample.var()))
运行结果:
N = 5,expectation = 0.503940,variance = 0.015760
N = 10,expectation = 0.496493,variance = 0.010882
N = 25,expectation = 0.502530,variance = 0.003558
N = 50,expectation = 0.501409,variance = 0.001528
N = 100,expectation = 0.501081,variance = 0.000786
N = 200,expectation = 0.500667,variance = 0.000415
N = 500,expectation = 0.501198,variance = 0.000164
N = 800,expectation = 0.500096,variance = 0.000118
由运行结果可知,随着N的增大,$E(ar{X}_{N})$在0.5附近浮动。由于N相差没有足够的大,并没做到$E(ar{X}_{N})$越来越接近于0.5。但方差是越来越小,趋近于0