zoukankan      html  css  js  c++  java
  • 机器学习中的数学——概率论


    概率论: 随机事件、统计量、常见分布、基本定理


    @


    参考资料:百度文档

    随机变量定义

    1. 若对随机试验的每一种可能结果 (omega) (in) (Omega) 都有一个唯一的实数 (xi)((omega)) 与之对应, 则称数值为随机变量. 实际上, 随机变量是将试验的结果映射到实数空间中. 比如男女分别为1, 0.$
    2. 随机变量可以是离散是连续的

    随机变量的数字特征 概率分布

    分为离散型分布:

    [p(x_{i}) ]

    连续类型分布:

    [p(x) ]

    累计分布函数为:

    [F(x)= int_infty^x{p(xi)dxi} ]

    其积分求和为0.
    使用抛硬币来说 (p(0)=0.5;p(1)=0.5)

    随机变量数字特征 期望

    数字特征:用以刻画随机变量某方面特征的量,称为随机变量的数字特征

    常用的数字特征:数学期望, 方差, 矩, 众数, 中位数, 协方差, 相关系数

    离散类型期望:

    设离散型随机变量(X)的概率分布为:

    [P(X=x_i)=p_i,~~~ i=1, 2, 3,.... ]

    (sum_{i=1}^infty{x_ip_i})绝对收敛, 则称(sum_{i=1}^infty{x_ip_i})为随机变量X的期望或均值, 记为(EX), 即

    [EX = sum_{i=1}^infty{x_ip_i} ]

    注:

    • (EX)度量了随机变量X的加权平均
    • (p_i(i=1, 2, 3...))为权重 $

    连续型随机变量的期望:

    定义:设随机变量X的密度函数为(f(x)), 若(int_{-infty}^{+infty}{xf(x)dx})绝对收敛, 则称(int_{-infty}^{+infty}{xf(x)dx})为随机变量(X)的期望或均值, 记为(EX).

    随机变量函数的数学期望:

    定义:设$ X $为随机变量, $ y=g(x) $为实函数

    1. (X)为离散型随机变量, 概率分布为(P(X=x_i)=p_i, ~~i=1, 2, 3, ...),若(sum_{i=1}^infty{g(x)p_i}) 绝对收敛, 则(E[g(x)])存在,且

    [E[g(x)]=sum_{i=1}^infty{g(x)p_i} ]

    1. (X)为连续型随机变量, 密度函数为(f(x)), 若(int_{-infty}^{+infty}{g(x)f(x)dx})绝对收敛, 则(E[g(x)])存在, 且

    [E[g(x)]=int_{-infty}^{+infty}{g(x)f(x)dx} ]

    例: 设随机变量的概率分布为:

    $ X $ 0 1 2
    $ P $ 0.1 0.6 0.3

    (E[x-EX]^2) .
    解:
    (EX=0*0.1+1*0.6+2*0.3=1.2)
    (E[X-EX]^2=(0-1.2)^2 imes 0.1+(1-1.2)^2 imes 0.6+(2-1.2)^2 imes 0.3=0.36)

    随机变量的方差

    对随机变量(X),知道了它的数学期望(EX), 虽然对该随机变量有了一定了解, 但还不够.
    例: 为评估一批灯泡的好坏, 从某种途径了解到其平均寿命为1000h, 即(EX=1000), 但不能完全肯定其质量的好坏.

    • 有可能产品的寿命平均集中在950~1050h, 质量稳定!
    • 有可能一半寿命为700小时, 另一半寿命为1300小时, 质量相对不稳定!

    故需要找一个值, 能够度量随机变量(X)(EX)的偏离程度.

    • (X-EX)---->不能!(X-EX)是随机变量
    • (E(X-EX))---->不能!(E(X-EX)=EX-EX=0)(正负偏差相互抵消)
    • (E|X-EX|)---->不便于计算
      得:(E(X-EX)^2)

    定义:设随机变量(X)的数学期望为(EX), 则称(E(X-EX)^2) 为随机变量(X)的方差, 记为(D(X)), 或(Var(X)) ,并称(sqrt{D(X)})(X)的标准差.
    方差的计算:
    考虑到方差实际上是随机变量函数的数学期望:(g(X)(X-EX)^2), 因此
    (X)为离散型随心变量, 概念分布为(p_i=P(X=x_i), ~~i=1,2,3...)

    [D(X)=E(X-EX)^2=sum_{i=1}^infty{(x_i-EX)^2p_i} ]

    (X)为连续型随机变量, 概率密度为f(x), 则:

    [D(X)=E(X-EX)^2=int_{-infty}^{+infty}{(x_i-EX)^2f(x)dx} ]

    有如下公式:

    [D(X)=E(X^2)-(EX)^2 ]

    [1]:

    [D(X)=E(X-EX)^2 = E(X^2 -2X*EX+(EX)^2) ]

    [=E(X^2)-2(EX)^2+(EX)^2 ]

    [=E(X^2)-(EX)^2 ]

    方差的性质:

    1. (D(C)=0~~C为常数)
    2. (D(X+C)=D(X))
    3. (D(CX)=C^2D(X))

    协方差

    百度百科:协方差

    在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

    (Cov(X,Y)=E[(X-EX)(Y-EY)])
    (=E(XY)-2E(X)E(Y)+E(X)E(Y))
    (=E(XY)-E(X)E(Y))

    从直观上来看,协方差表示的是两个变量总体误差的期望。


    1. 根据【随机变量函数的数学期望】计算。 ↩︎

  • 相关阅读:
    Linux定制化RPM包
    01-if条件语句之数字比较
    01-爬虫介绍
    Django的路由系统01-路由分发
    Nginx+tomcat+redis集群共享session实现负载均衡
    CAS单点登录原理
    红黑树
    B+树
    Mysql索引介绍
    B树(B-树)
  • 原文地址:https://www.cnblogs.com/zxingwork/p/12488875.html
Copyright © 2011-2022 走看看