概率统计的是样本空间中具有特定性质的样本出现的频率。比如抛3个硬币,样本空间是:正正正,正正反,…………,反反反。如果我们只关心正面出现的次数,那么我们可以定义一个函数:
f(样本)—》 实数
这样的函数就称为随机变量。简单的理解,它是样本的一个属性值。随机变量的意义在于把样本变成了数据,“样本”是个矢量,而随机变量是个标量。
-------------
有了随机变量,我们就能定义累积分布函数,该函数表示:随机变量小于等于目标值的概率。
它满足3个特点:
(1)x取值全体实数,y取值0~1,(2)递增;(3)右连续。
第三点略不好理解。它的意思是说,如果对于某个x,累积分布函数出现了跳跃,比如:
F(x0)=1,当x0<x
F(x1)=2, 当x1>x
那么F(x)=2.
这是有累积分布函数的定义决定,如果存在跳跃,那么必然是因为样本空间是离散的。如果F(x)不是右连续的,那么导致F(x)跳跃的值就是一个不确定的值。而不连续的样本空间,必然对应一个确定的值。
---------------
定义好了累积分布函数,接下来就能定义 概率密度函数。它表示:随机变量等于目标值的概率。它需要满足的特性是:
- 非负数
- 积分为1,表示所有可能性加起来为1
密度函数等于累积分布函数的微分。
-----------
概率,随机变量,累积分布,概率密度,就是统计推断第一章的内容。还是挺简单的哈。