在学完了几个重要分布之后,紧接着的内容就是这几个分布的使用,实际上这就是假设检验的过程
其中有一些概念: 分位点和分位数,p值,分布表,置信区间
因为是新概念, 我这种蒻蒻就是看得很不清楚,理解起来总是有点点模糊,很多书上讲得也不怎么清楚,现在搞清楚
参考博客:
分位点和分位数,p值
理解: 分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。
其中分位数又有上分位数和下分位数之分
以一组离散随机变量概率分布为例 :X:{1,2,3,4,5,7,8},总体为7个
二分位数就是4,意思是X有1/2=50%的可能小于或等于4,
同样往上看,X有1/2=50%的可能大于4所以同时这也是上分位数,二分位数没有上下之分
同理四分位数对应的概率是:1/4=25%,但是此时有上下之分,
X的上四分位数g就是X有25%的概率大于这个数g,25%*7=1.75,那怎么办?
那我就要找一个数,确保X至少有25%的概率大于这个数,1.75取2,2/7》=0.27,取7,8,再往下是5
这里查过之后,发现其实存在一点争议,就是在离散的情形里,上分位数取大于还是大于等于的问题,
什么时候取等,到底取不取等,或者需不需要乘百分比这个问题一直都有不同说法,
分位数取5,可以表示X至少有25%的概率大于5,或者,
还可以说取7,可以表示X至少有25%的概率大于等于7,
其中这个概率就是p值
由于p值常常不是整数,所以表示主要用的是为百分位数
总结一下:
在抽样分布和概率的基础上,以想象一个一个密度函数曲线
上分位点就是该点以上概率密度曲线与x轴的面积(概率)为α的点。
下分位点就是该点以下概率密度曲线与x轴的面积(概率)为α的点。
如标准正态分布的上α分位点:
设X~N(0,1),对于百任给的α,(0<α<1),
称满足P(X>Zα)= α的点Zα为标准正态分布的上α分位点。
理工类这边的书用的最多的是下侧分位点,有些数三的概率统计用的时上侧分位点
现在再来看看定义
分位数:指的就是连续分布函数中的一个点,这个点对应概率p。若概率0<p<1,随机变量X的概率分布的分位数Za,是指满足条件p(X≤Za)=α的实数
通常写作:
(分布类型为t,对应该分布类型的自由度为n)t (n)0.95(分位数要求 p 值)= g (某分位数的值)
表示对于自由度为n的t分布,p值为0.95的分位数为g,即:某随机变量满足自由度为n的t分布,有95%的可能比g小
在查表得时候一般过程是:
已知分布类型如:t,F,
还知道自由度和要求的百分数=5%,95%,97.5%等
然后找到对应百分数的百分位数=g
关于表格:
t分布的密度函数是关于y轴对称的,因此对任实数a>0,P(t>a)=P(ta)=2P(t>a).
现在看到的t分布表制作有这样两种:
- 列出的是使P(t>T)=α的T的值,将T记作t(α)(自由度不写了);
- 列出的是使P(|t|>T)=α的T的值,将T记作t(α)
在(1)表格中查到的t(α/2)与在(2)表格中查到的t(α)是同一个数,都是这个t分布的上α/2分位点。
一些套路
非标准分布的都可以化作标准正态分布后变形来找答案,
对于关于x轴对称的分布,比如标准正态分布和t分布,
有 当同分布,百分位数互补(和为1)时,百分位数互为相反数,
查表找不到就这么做,
一般方式是知二求一
- 知道分布,知道自由度,分位数,求一个概率,或者概率范围
- 知道分布,知道自由度,概率p值,求分位数,或者分位数范围
- 知道分布,知道概率和分位数,求自由度,或者自由度范围
由于需要求范围,所以我们需要知道分布中变量概率,自由度和分位点的递增递减关系
标准正态分布特殊点:
数值分布在(μ—σ,μ+σ)中的概率为0.6826
数值分布在(μ—2σ,μ+2σ)中的概率为0.9544
数值分布在(μ—3σ,μ+3σ)中的概率为0.9974
-1.96~+1.96范围内曲线下的面积等于0.9500,在-2.58~+2.58范围内曲线下面积为0.9900。
卡方分布:
任何分位点都大于等于0,因为是平方和(一组独立同分布于标准正态分布的样本的)
卡方分布分位点关于n和p都是单调递增的
t分布:
当固定百分数时,自由度越大,百分数越小,最终趋近于正态分布的值,
t分布分位点关于n递减,关于p递增
F分布:
F(n,m)关于n递增,关于m递减,关于p递增