有些量很难计算,不等式可以对这些量给出一个界。例如,我们没有足够的信息来计算所需的量(例如事件的概率或随机变量的预期值);又或者,问题可能很复杂,精确计算可能非常困难;还有些情况,我们可能希望提供一个通用的、适用于广泛问题的结果。
本节将学习两个不等式:Markov与Chebyshev不等式。
直观理解Markov不等式
我们凭直觉大致可以理解,观察值不会偏离期望值太多。Markov不等式和Chebyshev不等式把这种直觉放在坚实的数学基础上。接下来我们利用下面的图帮助我们理解这两个不等式:
其中,(t)是一个正数。蓝线(函数,输入小于(t)时,值是0,否则是(t))在绿线(恒等函数)之下,我们可以得出以下不等式:
设随机变量(X)取非负数,(p(i))表示(i)出现的概率,对上面不等式对应第(i)项乘(p(i))得到:
即得到Markov不等式:
从上面的图也可以看出等号成立的条件,即对所有(i eq 0,n)时,(p(i) = 0)。不等式可以推广到所有取非负数的随机变量。
Markov不等式:
令(X)为非负随机变量,且假设(E(X))存在,则对任意(t>0),有[P[X ge t] leq frac{E(X)}{t} ]
此外,当 (t = kmu),(mu = E(X)),(P(X>kmu) leq frac{1}{k}):
- 当 (k>1)时,表示随机变量的取值离期望不会太远(离期望较远的概率很小,小于(frac{1}{k}))。(P(X>2mu)leq 0.5) ,(P(X>3mu)leq 0.33);
- 当(0 <k leq 1)时,(1/k geq 1),上式总成立表示(P(A) leq 1)。
Morkov不等式的数学证明
对于1.1中的不等式关系进行证明如下:
Chebyshev不等式
Chebyshev不等式:
令(mu = E(X), sigma^{2} = D(X)),则:[P(|X - mu| geq t) leq frac{sigma^2}{t^2} qquad (1) ]令(Z = frac{X-mu}{sigma}),
[P(|Z| ge k) leq frac{1}{k^2} qquad (2) ]
对于((1))式的证明,借助Morkov不等式如下:
(P(|X-mu| ge t) = P((X-mu)^2 ge t^2)
leq frac{E( X - mu )^2}{t^2}
= frac{sigma^2}{t^2})
对于((2))式的证明:
$P(|Z| ge k) = P(|frac{X-mu}{sigma}| ge k) = P(|X-mu| ge ksigma) le frac{sigma2}{k2sigma^2} = frac{1}{k^2} (
如)P(|Z| ge 2) leq 1/4 (,)P(|Z| ge 3) leq 1/9 $
(X)在其期望附近((t)邻域)的概率与方差(sigma^2)有关:
- (sigma^2)越大,随机变量离期望的概率越大(方差用于度量随机变量围绕均值的散布程度);
- (sigma^2)越大,随机变量在期望附近,远离期望的概率越小。
需要注意的是,Chebyshev不等式没有限定分布的形式,所以应用广泛,但这个界很松,对某些具体的分布来说,可以得到更紧致的界,如高斯分布 (Z ~N(0,1))
得到米尔不等式(Mill's inequality):
同样算$P(|Z| geq 3) = 0.00295 $,比Chebyshev不等式算出来的(1/9)要小。
例题:假设我们在一个有(n)个测试样本的测试集上测试一个预测方法(以神经网络为例)。若预测错误则设置(X_i = 1),预测正确则设置(X_i = 0)。则(overline{X_n} = n^{-1}sum_{i=1}^{n}X_i)为观测到的错误率。每个(X_i)可视为有未知均值(p)的Bernoulli分布。我们想支持真正的错误率(p)。直观地,我们希望(overline{X_n})接近(p)。但(overline{X_n})有多大可能不在(p)的(epsilon)邻域内?
(D(overline{X}) = D(X_1)/n^2 = p(1-p)n),
(P(|overline{X_n} - p| geq epsilon ) leq frac{D(overline{X}) }{epsilon^{2}} = frac{p(1-p)}{nepsilon^2} leq frac{1}{4nepsilon^2})
由于对任意(p)有(p(1-p) leq 1/4),所以当(epsilon = 0.2),(n=100) 时,边界为0.0625。
Reference
- 《All of Statistics: A Concise Course in Statistical Inference》by Wasserman, Larry
- [The Markov and Chebyshev Inequalities](