zoukankan      html  css  js  c++  java
  • 跟着vamei复习概率论

    最近重新看了一下概率论,感觉很多东西都遗忘了,还会陷入各种误区,赶紧的纠正回来。

    概率论这块,主要内容包括:

    事件、条件概率、随机变量、随机变量的分布函数、概率密度、联合分布、期望、方差、协方差。

    我自己的误区总结:

    1.事件和随机变量

    首先要明确样本空间是所有可能发生的事件的集合,它由全部基本事件组成。而事件是基本时间的集合,是样本空间的子集,事件是固定的,或者说事件的概率是固定的(贝叶斯学派加入的先验概率先不考虑)。而随机变量一个映射,是从事件到实数的映射,随机变量表达了整个样本空间,描述了各种事件组合的可能,具备了期望方差等各种属性。所以,事件和随机变量是完全不同的概念,一静一动,不可搞混。

    举个栗子,掷一个骰子一次,对应的基本事件就是骰子出现1的面、...、掷骰子出现6的面。基本事件是死的,他们的概率也是死的是1/6。针对一次骰子实验我们可以定义随机变量X,用X的实数值表达基本事件,比如X=1表示出现面1,X=6表示出现面6。

    这样我们就去分开了事件和随机变量。

    对于随机变量,有一个重要的概念就是累计分布函数(CDF,cumlative distribution function),用来表示随机变量概率分布的情况。显然累计分布函数正无穷大的极限是1,此外还有右连续、不递减等特型。

    举个例子:

    做两次抛硬币的实验,随机变量X表示正面出现的次数,显然,X=0,1,2,概率分别为:0.25,0.5,0.25. 其CDF如下:

    代码如下:

    >>> x = [-1, 0, 0, 1, 1, 2, 2, 3]
    >>> y = [0, 0, 0.25, 0.25, 0.75, 0.75, 1, 1]
    >>> fig = plt.figure()
    >>> ax = plt.subplot()
    >>> ax = plt.subplot(111)
    >>> ax.plot(x,y)
    [<matplotlib.lines.Line2D object at 0x10b5b4e10>]
    >>> ax.set_ylim([-0.1, 1.1])
    (-0.1, 1.1)
    >>> ax.set_title("CDF plot")
    <matplotlib.text.Text object at 0x10b59e950>
    >>> plt.show()
    

    1.2 条件概率的误区

    实际上1.1理解了,1.2自然就理解了。就是随机事件的条件概率和随机变量的条件概率的区别。首先两者都可以计算条件概率,或者说条件概率本质山就是由事件的计算得到的。我的理解是,随机变量是数值转换后的条件概率,如果给定了数值,两者是等价的。但是随机变量是随机的,是动的,因此会存在条件概率分布等东东。所以两者还是不同的,依然是一静一动。

    2.关于协方差

    协方差是描述多个随机变量之间的关系的。如果两个随机变量是相互独立的,那他们的协方差或者相关系数是0,反之不成立。

    考虑我们有m个样本,每个样本的特征数是n。那么我们可以将n个特征看成n个随机变量。每个随机变量都有m的实数值作为它的观测值,因此我们可以计算得到均值,方差。进而可以算出两两特征之间的协方差的。而这些协方差就够成了整个样本集的协方差矩阵。协方差矩阵很有用,特别是用在高斯分布的模型中的时候。

    未完,待续。

  • 相关阅读:
    datanode报错Problem connecting to server
    使用命令查看hdfs的状态
    Access denied for user root. Superuser privilege is requ
    ElasticSearch默认的分页参数 size
    SparkStreaming Kafka 维护offset
    【容错篇】Spark Streaming的还原药水——Checkpoint
    251 Android 线性与相对布局简介
    250 Android Studio使用指南 总结
    249 如何解决项目导入产生的中文乱码问题
    248 gradle更新问题
  • 原文地址:https://www.cnblogs.com/chybot/p/4657733.html
Copyright © 2011-2022 走看看