zoukankan      html  css  js  c++  java
  • 机器学习笔记--Hoeffding霍夫丁不等式

    Hoeffding霍夫丁不等式

    在<<机器学习>>第八章"集成学习"部分, 考虑二分类问题(y in {-1, +1}) 和真实函数(f), 假定基分类器的错误率为(epsilon), 即对每个基分类器(h_{i})

    [egin{equation} P(h_{i}(x) eq f(x)) = epsilon end{equation} ]

    假设集成通过简单投票法结合(T)个基分类器, 若有超过半数的基分类器正确, 则集成分类就正确:

    [egin{equation} H(x) = sign(sum_{i=1}^{T}h_{i}(x)) end{equation} ]

    假设基分类器的错误率相互独立, 则由Hoeffding不等式可知, 集成的错误率为:

    [egin{equation} egin{aligned} P(H(x) eq f(x)) &= sum_{k=0}^{lfloor T/2 floor}{T choose k}(1 - epsilon)^{k}epsilon^{T - k}\ &leq exp(-frac{1}{2}T(1 - 2epsilon)^{2}) end{aligned} end{equation} ]

    对怎么得到小于等于之后的式子不甚明白.

    维基百科上Hoeffding不等式的介绍是:

    Hoeffding不等式适用于有界的随机变量. 设有两两独立的一系列随机变量(X_{1}, ..., X_{n}). 假设对所有的(1le i le n), (X_{i})都是几乎有界的变量, 即满足:

    [egin{equation} mathbb{P}(X_{i} in [a_{i},b_{i}]) = 1. end{equation} ]

    那么这n个随机变量的经验期望:

    [egin{equation} overline{X} = frac{X_{1}+cdotcdotcdot+X_{n}}{n} end{equation} ]

    满足以下的不等式:

    [egin{equation} mathbb{P}(overline{X}-mathbb{E}[overline{X}]ge t) le expleft(-frac{2t^{2}n^{2}}{sum_{i=1}^{n}(b_i-a_i)^2} ight) end{equation} ]

    [egin{equation} mathbb{P}(lvert overline{X}-mathbb{E}[overline{X}] vert ge t) le 2exp left(-frac{2t^2n^2}{sum_{i=1}^n(b_i-a_i)^2} ight) end{equation} ]

    先记这些定义吧, 证明以后有兴趣再看吧....

    伯努利随机变量的特例

    假定一个硬币A面朝上的概率为(p), 则B面朝上的概率为(1-p). 抛n次硬币, A面朝上次数的期望值为(n * p). 则A面朝上的次数不超过k次的概率为:

    [egin{equation} egin{aligned} P(H(n) le k)&=sum_{i=0}^kC_n^ip^i(1-p)^{n-i}\ &=sum_{i=0}^kfrac{n!}{i!(n-i)!}p^i(1-p)^{n-i} end{aligned} end{equation} ]

    (H(n))为抛n次硬币A面朝上的次数

    对某一(varepsilon > 0)(k=(p-varepsilon)n) 时, 有Hoeffding不等式

    [egin{equation} P(H(n)le(p-varepsilon)n)le e^{-2varepsilon ^2n} end{equation} ]

    对应的, 当(k=(p+varepsilon)n) 时,

    [egin{equation} P(H(n)ge(p+varepsilon)n)le e^{-2varepsilon ^2n} end{equation} ]

    由此可得

    [egin{equation} P((p-varepsilon)n le H(n) le (p + varepsilon)n) ge 1-2e^{-2varepsilon^2n} end{equation} ]

    利用式(9)可推式(3)

    式(3)的(1-epsilon) 相当于式(9)的(p) , 令(H(n))为基分类器分类正确的数量, 有

    [egin{equation} P(H(x) eq f(x))=P(H(n) le lfloorfrac{T}{2} floor) end{equation} ]

    总分类器的数量为(T)(就是n), 令(frac{T}{2}=(1-epsilon-varepsilon)T), 可推得(varepsilon=frac{1}{2} - epsilon) , 根据式(9)可得

    [egin{equation} egin{aligned} P(H(n) le lfloorfrac{T}{2} floor) &le exp(-2(epsilon-frac{1}{2})^2T)\ &=exp(-2(epsilon^2+frac{1}{4}-epsilon)T)\ &=exp(-frac{T}{2}(4epsilon^2+1-4epsilon))\ &=exp(-frac{1}{2}T(1 - 2epsilon)^{2}) end{aligned} end{equation} ]

    便得到式(3)得最终不等式形式

  • 相关阅读:
    WPF的模版
    AvalonDock结合MVVM模式的应用
    A Diagram Designer
    WPF Canvas小例子
    WPF ListView的使用及Linq to XML练习
    httpclient发送接受请求
    json序列化以及反序列化存在多个对象时候的处理
    json序列化
    wpf数据绑定
    wpf之WrapPanel与StackPanel
  • 原文地址:https://www.cnblogs.com/zzycv/p/9152332.html
Copyright © 2011-2022 走看看