zoukankan      html  css  js  c++  java
  • 几个统计学的概念

    统计基础概念

    在多元变量分析中,我们考虑所有的 (d) 个数值型属性 (X_1, cdots, X_d)。整个数据集是一个 (n imes d) 的矩阵,即(数据矩阵):

    [D = left[ egin{array}{c|llll} & X_1 & X_2 & cdots & X_d \ hline x_1^T & x_{11} & x_{12} & cdots & x_{1d} \ x_2^T & x_{21} & x_{22} & cdots & x_{2d} \ vdots & vdots & vdots & ddots & vdots \ x_n^T & x_{n1} & x_{n2} & cdots & x_{nd} \ end{array} ight] ]

    以上数据:

    • 按照来看,可以看作 (d) 维属性空间中的 (n) 个点或者向量
      ( x_i = (x_{i_1}, cdots, x_{id})^T in {Bbb R}^d )
    • 按照来看,可以看作 (n) 维属性空间中的 (d) 个点或者向量
      ( X_j = (X_{j_1}, cdots, X_{jd})^T in {Bbb R}^n )

    从概率的角度,(d) 个属性可以建模为一个向量随机变量 (X = (X_1, X_2, cdots, X_d)^T),而点 (x_i) 可以看成从 (X) 中得到的随机样本,它们和 (X) 是独立同分布的。

    均值

    [egin{align} mu = E[X] = left[ egin{array}{c} E[X_1] \ E[X_2] \ vdots \ E[X_d] end{array} ight] = left[ egin{array}{c} mu_1 \ mu_2 \ vdots \ mu_d end{array} ight] ag{均值向量} \ hat{mu} = frac{1}{n} sum_{i=1}^{n}x_i ag {样本均值} end{align} ]

    协方差矩阵

    [Sigma = E[(X - mu)(X - mu)^T] ]

    居中数据矩阵

    [Z = D - 1 cdot hat{mu}^T ]

    样本协方差矩阵

    [hat{Sigma} = E[(X - hat{mu})(X - hat{mu})^T] = frac{1}{n - 1}; (Z^TZ) ]

    总方差

    [var(D) = tr(Sigma) ]


    数据规范化

    极差归一化

    极差(hat{r} = max{X_i} - min{X_i})

    (X_i^{'} = frac{X_i - min{X_i}}{hat{r}})

    标准差归一化

    [hat{X} = frac{X - hat{mu}}{hat{sigma}} ]


    高斯误差函数

    [erf(x) = frac{2}{sqrt{pi}};int_0^xe^{-t^2}{ m d}t ]

    应用

    一元正态分布

    随机变量 (X) 服从正态分布,均值为 (mu),方差为 (sigma^2),其概率密度函数可以描述为:

    [f(x\,|\,mu, sigma^2) = frac{1}{sqrt{2pi sigma^2}} expleft{-frac{(x - mu)^2}{2 sigma^2} ight} ]

    给定区间 ([a, b]),在该区间上的正态分布的概率质量为:

    [P(a leq x leq b) = int_a^b f(x\,|\,mu, sigma^2) { m d} x ]

    我们大都对于区间 ([mu - k sigma, mu + k sigma]) 比较感兴趣:

    [P(mu - k sigma leq x leq mu + k sigma) = int_{mu - k sigma}^{mu + k sigma} f(x\,|\,mu, sigma^2) { m d} x ]

    我们令 (z = frac{x - mu}{sigma}),则上式可以化为:

    [egin{align} P(- k leq z leq k) &= frac{1}{sqrt{2pi}} int_{- k}^{k} e^ {- frac{1}{2}{z^2}} { m d}z \ &= frac{2}{sqrt{2pi}} int_{0}^{k} e^ {- frac{1}{2}{z^2}} { m d}z \ &= frac{2}{sqrt{pi}} int_{0}^{frac{k}{sqrt{2}}} e^{- t^2} { m d}t \ &= erf(frac{k}{sqrt{2}}) end{align} ]

    多元正态分布

    (X = (X_1, X_2, cdots, X_d)) 服从多元正态分布,均值为 (f mu),协方差矩阵为 (f Sigma),则其联合多元概率密度函数为:

    [f(x\,|\,mu, Sigma) = frac{1}{sqrt{2pi}^d {sqrt{|{Sigma}|}}} expleft{-frac{(x - mu)^T{Sigma}^{-1}(x - mu)}{2} ight} ]

    马氏距离

    [(x - mu)^T{Sigma}^{-1}(x - mu) ]

  • 相关阅读:
    菜鸟系列docker——docker镜像下(5)
    菜鸟系列docker——docker镜像中(4)
    菜鸟系列docker——docker镜像上(3)
    菜鸟系列docker——docker仓库(2)
    菜鸟系列docker——docker基本概念(1)
    Postman工具内容梳理
    Fiddler抓包手机APP失败的处理
    微信
    微信文本的爬取
    如何写活类的装饰器
  • 原文地址:https://www.cnblogs.com/q735613050/p/9344606.html
Copyright © 2011-2022 走看看