zoukankan      html  css  js  c++  java
  • 统计学基础之概率分布

    统计学基础之概率分布

     

     一、基本概念

    1、随机变量

    在同一组条件下,如果每次实验可能出现这样那样的结果,并且所有的结果都能列举出来,即X的所有的可能值x1,x2,....,xn都能列举出来,而且X 的可能值x1,x2,....,xn具有确定概率P(x1),P(x2),....,P(xn),其中P(xi)=P(X = xi),称为概率函数,则X称为P(X)的随机变量,P(X)称为随机变量X的概率函数。

    (1)离散型随机变量:如果随机变量的所有取值都可以逐个列举出来,则称为离散型随机变量。

    (2)连续型随机变量:如果随机变量的所有取值都无法逐个列举出来,而是取数轴上某一区间内的任一点。

    2、古典概率

    随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。例如,抛掷一枚平正的硬币,正面朝上与反面朝上是唯一可能出现的两个基本事件,且互不相容。如果我们把出现正面的事件记为E,出现事件E的概率记为p(E),则:
    P(E)=1/(1+1)=1/2
    一般说来,如果在全部可能出现的基本事件范围内构成事件A的基本事件有a个,不构成事件A的事件有b个,则出现事件A的概率为:
    P(A)=a/(a+b)

    3、条件概率

    条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为:P(A|B),读作“A在B发生的条件下发生的概率”。若只有两个事件A,B,那么,

    4、离散变量

    可取值能一个个列出来的变量称为离散变量。设离散变量。事件 的概率称X的概率函数,即

    概率函数的对应值表称概率函数表。图像称概率函数图。概率函数及函数表、图。都能反映离散变量与概率的对应关系,统称离散变量的概率分布,实际问题中简称为离散总体。复杂事件 是基本事件的并事件其概率称为离散变量X的累积概率。

    5、连续变量

    可取值能充满一个区间的变量称为连续变量。其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

    6、期望值

    即平均值。

    7、【大数定律】 

    一种描述当试验次数很大时所呈现的概率性质的定律。

    1、切比雪夫大数定理  

       ,....是一列相互独立的随机变量(或者两两不相关),他们分别存在期望和方差 。若存在常数C使得:则对任意小的正数 ε,满足

    将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
    2、伯努利大数定律
    设μ是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,
    该定律是切比雪夫大数定理的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
     
    3.辛钦大数定律
    为独立同分布的随机变量序列,若的数学期望存在,则服从大数定律:即对任意的ε>0,有
     
     

    二、离散变量概率分布

    1、二项分布
    二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

    属性:

    每个试验都是独立的。
    在试验中只有两个可能的结果:成功或失败。
    总共进行了n次相同的试验。
    所有试验成功和失败的概率是相同的。

    重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果。
    二项分布公式二项分布公式
    如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复实验中发生K次的概率是
    P(ξ=K)= C(n,k) * p^k * (1-p)^(n-k),其中C(n, k) =n!/(k!(n-k)!),注意:第二个等号后面的括号里的是上标,表示的是方幂。
    那么就说这个属于二项分布。其中P称为成功概率。记作ξ~B(n,p)
    期望:Eξ=np;
    方差:Dξ=npq;
    其中q=1-p
     
    2、泊松分布
    泊松分布的概率函数为:
    泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数。
    泊松分布的期望和方差均为 
    特征函数为
     
    泊松分布与二项分布

    泊松分布在满足以下条件的情况下是二项式分布的极限情况:

    • 试验次数无限大或n → ∞。
    • 每个试验成功的概率是相同的,无限小的,或p → 0。
    • np = λ,是有限的。

    3、伯努利分布
    伯努利分布亦称“零一分布”、“两点分布”。称随机变量X有伯努利分布, 参数为p(0<p<1),如果它分别以概率p和1-p取1和0为值。EX= p,DX=p(1-p)。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型机率分布,是N=1时二项分布的特殊情况
     

    随机变量X服从参数为p的伯努利分布,则X的概率函数: 

    f(x|p)=px(1p)1xx=01f(x|p)=px(1−p)1−xx=0或1

    均值与方差: 
    u=p;var=p(1p)
     

    伯努利与二项分布之间的关系:

    • 伯努利分布是具有单项试验的二项式分布的特殊情况。

    • 伯努利分布和二项式分布只有两种可能的结果,即成功与失败。

    • 伯努利分布和二项式分布都具有独立的轨迹。

    4、beta分布
     
    贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。在概率论中,贝塔分布,也称B分布,是指一组定义在  区间的连续概率分布,有两个参数
     
     
    1.概率密度函数
    Β分布的概率密度函数是:
    其中
      
    Γ函数。随机变量X服从参数为  
    的Β分布通常写作
     

    三、分布的形状

    1、正态分布

    正态分布(Normal distribution),也称“常态分布”,又名高斯分布。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形。

    定义:若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

    (1)如果  且a与b是实数,那么 。

    (2)如果  与 是统计独立的正态随机变量,那么:它们的和也满足正态分布

     它们的差也满足正态分布
     
    U与V两者是相互独立的。
    (3)如果  和
     
    是独立常态随机变量,那么:它们的积XY服从概率密度函数为p的分布
     
    其中
     
    是修正贝塞尔函数。它们的比符合柯西分布,满足
     
    (4)如果 为独立标准常态随机变量,那么
     
    服从自由度为n的卡方分布。
     
     

    2、均匀分布

    均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。 均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

    均匀分布的概率密度函数为
     
    在两个边界a和b处的f(x)的值通常是不重要的,因为它们不改变任何  的积分值。 概率密度函数有时为0,有时为
      
    。 在傅里叶分析的概念中,可以将f(a)或f(b)的值取为
      
    ,因为这种均匀函数的许多积分变换的逆变换都是函数本身。
     
    对于平均值μ和方差  ,概率密度可以写为:
    若a = 0并且b = 1,所得分布U(0,1)称为标准均匀分布。
    标准均匀分布的一个有趣的属性是,如果u1具有标准均匀分布,那么1-u1也是如此。
     
    (1)如果X服从标准均匀分布,则通过逆变换方法,
      
    具有指数分布参数  。
    (2)如果X服从标准均匀分布,则Y = Xn具有参数(1 / n,1)的β分布。
    (3)如果X服从标准均匀分布,则Y = X也是具有参数(1,1)的β分布的特殊情况。
    (4)两个独立的,均匀分布的总和产生对称的三角分布
     
     
     

    3、卡方分布

    若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

    若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和  构成一新的随机变量,其卡方分布分布规律称  分布(chi-square distribution),其中参数 称为自由度,正如正态分布中均数或方差不同就是另一个正态分布一样,自由度不同就是另一个  分布。记为  或者 

    (其中
     , 
     
    为限制条件数)。
    卡方分布是由正态分布构造而成的一个新的分布,当自由度 很大时,  分布近似为正态分布。对于任意正整数x, 自由度为
      
    的卡方分布是一个随机变量X的机率分布。
     
     
     
     
     

    纯粹笔记。。。。
  • 相关阅读:
    springboot + druid
    springboot + lombok
    springboot + swagger2
    Timer / TimerTask 源码解析
    Nginx(三) upstream目前支持的5种分配方式
    Nginx(一) 配置负载均衡
    Intellij IDEA 2018.02 激活方法
    Class常量池、String常量池、运行时常量池
    IntelliJ 结合 javap 实现class文件分析(反编译)
    关于登录注册的简单实现方式
  • 原文地址:https://www.cnblogs.com/zym-yc/p/11300186.html
Copyright © 2011-2022 走看看