应用统计学
推断统计需要样本形容总体,就要有统计量。注意必须总体是正态分布,否则统计量的分布不能得到。卡方分布和t分布只要样本大于30都近似于正态分布。
t分布和F分布推导及应用(图):
总体比例是π,样本比例是p比例可用于计算患病率。近似就是均值和方差不发生改变,但是分布形式改变了,其实形状没发生改变。Eg:大样本时,二项分布近似于正态分布:
无偏性利用样本一阶矩。有效性利用样本二阶矩,可看出平均数比中位数更有效。相合性利用样本三阶矩,一般出现统计量都符合。
点估计是直接计算样本均值和方差不需要分布;区间估计需要分布因为计算出来是一个区间
点估计与区间估计之间的关系,如下图所示:
置信区间:100次95次的区间内有真值。
实际应用中,标准差可以通过历史值代替。
标准差与均值有同样单位,所以可将量纲去除,成为一个数值,eg:p-value。
置信区间通用表达为(点估计+、-某分布的数值*统计量的标准误差),从置信区间长度表达式可知想要增大信心,但不增大区间,需要增多样本量。只关心一端值可用单侧区间。