大学课程概率论总结

zoukankan html css js c++ java

大学课程概率论总结
转载自：https://www.cnblogs.com/sench/p/9478284.html
1、频率派概率和贝叶斯概率

概率论使能够我们能够提出不确定性的声明以及在不确定性存在的情况下进行推理。概率论最初的发展是为了分析事件发生的频率。有一类事件是可以重复的（比如投掷一枚硬币，观察硬币落到正面还是反面），当我们说一个结果发生的概率为p，则如果我们进行无数次的反复实验，有p的比例会导致这样的结果。而另一类事件是不能重复的，比如医生根据病人的症状判断病人有40%的概率患有流感，在这个例子中，概率用来表示一种信任度，1表示非常肯定病人患有流感，0表示非常肯定病人没有流感。前面的一种概率，直接与时间发生的频率相联系，称之为频率派概率（frequentist probability）；而后者则涉及到确定性水平，叫做贝叶斯概率（Bayesian probability）。

2、随机变量

一个事件的所有可能结果组成这个事件的样本空间，其中的每一种结果叫做样本点。如果对于每一个样本点，都有一个唯一的实数与之对应，则就产生了一个样本点到唯一实数之间的函数，我们称该函数为随机变量。通俗地讲，随机变量就是将随机事件的结果量化。比如同时投掷两枚骰子，观察两枚骰子的点数，则样本空间共有36个样本点组成

两点分布

二项分布

几何分布

超几何分布

均匀分布

泊松分布

连续型随机变量对应的常见分布有：

均匀分布

指数分布

正态分布

我们通常用无格式字体 (plain typeface) 中的小写字母来表示随机变量本身，而用手写体中的小写字母来表示随机变量能够取到的值。例如，

3、离散型随机变量及其分布律

离散型随机变量的概率分布可以用分布律来描述（或者称为概率质量函数，probability mass function, PMF ）。我们通常用大写字母

对

4、连续型随机变量及其概率密度函数

连续型随机变量的概率分布可以使用概率密度函数（probability density function, PDF）来描述。如果一个函数

对

下面用一个例子来解释上面的几条性质。
考虑在区间[a, b]上的均匀分布，我们用

可以看到
5、边缘概率分布

有时候，我们知道了一组变量的联合概率分布，但我们想了解某一个子集的概率分布，则这种定义在子集上的概率分布被称为边缘概率分布（marginal probability distribution）。
为什么叫边缘概率分布呢？举个例子，假如有两个随机变量x, y的二维联合概率分布如下表：

6、条件概率

在很多情况下，我们感兴趣的是一个事件已经发生的情况下，另一个事件发生的概率，这种概率叫做条件概率。在事件x已经发生的情况下，事件y发生的概率表示为

7、条件概率的链式法则

从上节的条件概率公式可以知道两个事件b,c同时发生的概率：
$P (b, c) = P (b | c) P (c)$ $P (a, b, c) = P (a | b, c) P (b, c) = P (a | b, c) P (b | c) P (c$

8、独立性和条件独立性

8.1、独立性

如果两个随机变量（事件）x,y同时发生的概率等于这两个变量（事件）单独发生的概率乘积，则称这两个随机变量是独立的，即：

8.2、条件独立性

如果在随机变量（事件）z已经发生的情况下，随机变量（事件）x和y同时发生的概率等于x和y在z已发生的情况下分别发生的概率乘积，即：

9、期望、方差和协方差

9.1、期望

期望（expectation）就是随机变量取值的平均值。设

9.2、方差

期望反映了随机变量分布的平均取值，但在实际问题中，我们不仅关心随机变量的平均取值，还关心随机变量的取值与平均取值（期望）的偏离程度，方差（variance）就是用来衡量这种偏离程度的，也就是衡量随机变量x取值的差异性。设f(x)是随机变量x的函数，则f(x)方差的计算公式如下：

9.3、协方差

协方差（covariance）在某种意义上给出了两个随机变量之间的相关程度的大小。如随机变量x和y相互独立，则x与y的协方差Cov(x, y)=0。设f(x)是x的函数，g(y)是y的函数，则f(x)和g(y)的协方差计算方法为：

10、常见的分布

10.1、伯努利分布（Bernoulli distribution）

一般把只有两个对立结果的实验叫做伯努利实验，如投硬币就是一个伯努利实验，因为投掷的结果只有正面和反面。把伯努利实验在相同条件下重复进行n次，且这n次实验相互独立，则称这n次实验为n重（次）伯努利实验，或称为伯努利概型，对应的概率分布叫做二项分布。当n=1时，二项分布变为伯努利分布（又称两点分布，或者0-1分布），也就是说伯努利分布是只进行1次伯努利试验的概率分布。伯努利分布适用于离散型随机变量。
伯努利分布由单个参数Φ∈[0,1]控制，Φ给出了随机变量x等于1（如硬币正面）的概率，则P(x=0)=1-Φ。伯努利分布具有如下性质：

10.2、多项式分布（multinoulli distribution）

在10.1中介绍了二项分布，指在每次实验中，实验结果只有两个状态（投硬币）。若每次实验的实验结果有k个状态（投骰子），进行n次相互独立的实验对应的概率分布叫做多项式分布，或者范畴分布。多项式分布由向量

10.3、正态分布（normal distribution）

实数上最常用的分布就是正态分布（normal distribution），也称为高斯分布 （Gaussian distribution）：

10.4、指数分布和Laplace分布

在深度学习中，我们经常会需要一个在 x = 0 点处取得边界点(sharp point) 的分布。我们可以使用指数分布来达到这一目的：

10.5、Dirac分布和经验分布

10.5.1、Dirac分布

在一些情况下，我们希望概率分布中的所有质量都集中在一个点上。这可以通过Dirac delta 函数（Dirac delta function，狄拉克函数）δ(x) 定义概率密度函数来实现：
$p (x) = σ (x)$ $p (x) = σ (x - μ)$
10.5.2、经验分布

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现：

11、分布的混合

通过组合一些简单的概率分布来定义新的概率分布也是很常见的。一种通用的组合方法是构造混合分布（mixture distribution）。混合分布由一些组件 (component) 分布构成。我们在上一节中已经看过一个混合分布的例子了：实值变量的经验分布对于每一个训练实例来说，就是以 Dirac 分布为组件的混合分布。

12、常用函数的有用性质

12.1、logistic sigmoid函数

logistic sigmoid函数的表示如下：

12.2、softplus函数

softplus函数的表示如下：

12.3、有用的性质

关于logistic sigmoid函数和softplus函数有一些非常有用的性质：

13、贝叶斯规则

我们经常会在已知
$P (x | y) = P ( x , y ) P ( y ) = P ( x ) P ( y | x ) P ( y )$
14、结构化概率模型

机器学习的算法经常涉及到在非常多的随机变量上的概率分布，通常这些随机变量中的直接相互作用只牵扯到非常少的变量。使用单个函数来描述整个联合概率分布是非常低效的，这时，我们可以把单个函数分解成因子相乘的形式。比如，有三个随机变量a,b,c，a影响b的取值，b影响c的取值，但a和c在b给定的情况下是独立的，则
$p (a, b, c) = p (b) p (a, c | b) = p (b) p (a | b) p (c | b)$
查看全文

相关阅读:
运算符
 转载：C/C++源代码到可执行程序的过程详解
 #define与运算精度问题探究
 字符数组char
解决蓝屏代吗0x0000007B的几种常见办法
 转载～vim配置文件
 Ubuntu kill命令用法详解
 How To Ask Questions The Smart Way
提问的智慧
 【NOIP2012提高组】国王游戏贪心 + 高精度

原文地址：https://www.cnblogs.com/MINGYOUR/p/11815253.html

大学课程概率论总结

转载自：https://www.cnblogs.com/sench/p/9478284.html

1、频率派概率和贝叶斯概率

2、随机变量

3、离散型随机变量及其分布律

4、连续型随机变量及其概率密度函数

5、边缘概率分布

6、条件概率

7、条件概率的链式法则

8、独立性和条件独立性

8.1、独立性

8.2、条件独立性

9、期望、方差和协方差

9.1、期望

9.2、方差

9.3、协方差

10、常见的分布

10.1、伯努利分布（Bernoulli distribution）

10.2、多项式分布（multinoulli distribution）

10.3、正态分布（normal distribution）

10.4、指数分布和Laplace分布

10.5、Dirac分布和经验分布

10.5.1、Dirac分布

10.5.2、经验分布

11、分布的混合

12、常用函数的有用性质

12.1、logistic sigmoid函数

12.2、softplus函数

12.3、有用的性质

13、贝叶斯规则

14、结构化概率模型