zoukankan      html  css  js  c++  java
  • Are Loss Functions All the Same?

    Rosasco L, De Vito E, Caponnetto A, et al. Are loss functions all the same[J]. Neural Computation, 2004, 16(5): 1063-1076.

    @article{rosasco2004are,
    title={Are loss functions all the same},
    author={Rosasco, Lorenzo and De Vito, Ernesto and Caponnetto, Andrea and Piana, Michele and Verri, Alessandro},
    journal={Neural Computation},
    volume={16},
    number={5},
    pages={1063--1076},
    year={2004}}

    作者给出了不同的损失函数, 在样本数量增多情况下的极限情况. 假设(p(x,y))((x,y))的密度函数,其中(xin mathbb{R}^d)为输入样本, (yin mathbb{R})为值(回归问题) 或 类别信息(分类问题). 设(V(w,y),)为损失函数, 则期望风险为:

    [ ag{1} I[f]=int_Z V(f(x),y)p(x,y)mathrm{d} x mathrm{d}y, ]

    其中(f)为预测函数, 不妨设(f_0)最小化期望风险. 在实际中, 我们只有有限的样本(D={(x_1,y_1),ldots, (x_l,y_l)}), 在此情况下, 我们采取近似

    [ ag{2} I_{emp}[f]=frac{1}{l}sum_{i=1}^lV(f(x_i),y_i), ]

    同时

    [ ag{3} f_D=argmin_{f in mathcal{H}} I_{emp}[f]. ]

    其中(mathcal{H})为hypothesis space.

    (f_D)(f_0)之间的差距如何, 是本文的核心.

    主要内容

    一些假设

    首先(f_D)的在空间(mathcal{H})中寻找, Reproducing Kernel Hilbert Space(RKHS)一文中(没看)给出了这种空间的构造方式. 给定对称正定函数(K(x,s))(Mercer核):

    [K: X imes X ightarrow mathbb{R}, ]

    同时(K(cdot, x))是连续函数.
    函数(f)通过下述方式构造:

    [ ag{4} f(x) = langle f, K(cdot, x) angle_{mathcal{H}}. ]

    给定常数(R>0), 构造hypothesis space (mathcal{H}_{R}):

    [mathcal{H}_{R} = {f in mathcal{H}, |f|_{mathcal{H}}le R}, ]

    则在(|cdot|_{infty})下, (mathcal{H}_R)是连续函数(C(X))上的一个紧集,其中(Xsubset mathbb{R}^d)是紧的(这个证明要用到经典的Arela-Ascoli定理, 只需证明(mathcal{H}_R)中的元素是等度连续即可).
    另外:

    [|f(x)|= |langle f, K(cdot, x) angle_{mathcal{H}}.| le |f|_{mathcal{H}} sqrt{K(x,x)}, ]

    [|f(x)|_{infty} le RC_K, ]

    其中(C_K=sup_{x in X} sqrt{K(x,x)}).

    损失函数(V)为凸函数且满足:

    1. (V)是Lipschitz函数, 即对于任意的(M>0), 存在常数(L_M>0)使得

    [|V(w_1,y)-V(w_2,y)|le L_M|w_1-w_2|, ]

    对于任意的(w_1,w_2in[-M,M],yin Y)成立.
    2. 存在常数(C_0), (forall yin Y)

    [V(0, y) le C_0, ]

    成立.

    注: 这里的凸函数, 因为一般的损失函数实际上是以(w-y)(回归), (wy)(分类)为变元, 所以要求(V(t))关于(t=w-y)或者(t=wy)为凸函数.

    损失函数

    回归问题:
    在这里插入图片描述
    分类问题:
    在这里插入图片描述

    这些损失函数都是满足假设的, 所对应的(L_M, C_0), 当(Y=[a, b], delta=max {|a|, |b|})时为
    在这里插入图片描述

    (I[f_D]-I[f_R])

    假设(f_R=argmin_{f in mathcal{H}_R}I[f]), 一般的误差

    [I[f_D]-I[f_0]=(I[f_D]-I[f_R])+(I[f_R]-I[f_0]), ]

    第一项是我们所关注的, 称为估计误差, 第二项为逼近误差.

    这里引入(mathcal{H}_R)covering number, (N(epsilon)), 文中所指的应该是wiki中的external covering number.

    下面是理论结果, 引理的证明用了Hoeffding不等式, 这个不了解, 感兴趣请回看原文.
    在这里插入图片描述

    在这里插入图片描述
    这里(epsilon(eta, ell, R))实际上(6)不等式右端第二项, 令其为(eta), 反解(epsilon)的意思.
    第一个不等式实际上就是引理的推论, 第二个不等式注意到:在这里插入图片描述
    (I[f_D]ge I[f_R])(这个说是根据定义, 但我没弄清楚), 故不等式成立.

    损失函数的统计性质

    收敛速度

    考察不同损失的函数的(eta):

    回归问题:

    (abs / epsilon-insensitive):
    在这里插入图片描述
    (square):
    在这里插入图片描述
    注意到, 因为square loss 的covering number 随着(R, delta)的增加会变大, 所以(eta)会变大,所以在收敛速度上, square比不上上面俩个.
    在这里插入图片描述

    分类问题:

    hinge:
    在这里插入图片描述
    logistic:
    在这里插入图片描述
    二者的收敛表现是类似的, 而square是类似的((delta=1)).

    分类的界

    关注分类问题中的hinge损失, 因为它会逼近概率推断.

    在二元分类问题中, 其最佳函数(f_b)为:
    在这里插入图片描述
    (p(1|x) ot= p(-1|x)).

    有如下事实:
    在这里插入图片描述
    证明蛮有趣的, 这里贴一下
    在这里插入图片描述
    (p(1|x)<1/2)的证明是类似的.

    另外(证明在别的论文中):

    [ ag{11}I[f_0]=I[f_b]. ]

    又(至少有(1-eta)的概率)

    [I[f_D]-I[f_R]le2epsilon(eta, ell, R), ]

    并注意到(感觉怪怪的):

    [I[sgn(f_D)] le I[f_D], ]

    故至少有(1-eta)的概率
    在这里插入图片描述
    成立. 也就是说当样本个数(ell)足够大的时候, (sgn(f_D))的效用是等价于统计判别的, 这是hinge loss独有的优势.

  • 相关阅读:
    android学习之layout_gravity和gravity的区别
    android学习之布局(如何动态加入其它xml文件中的控件)
    android学习之屏幕切换动画(translate)
    android学习之ViewPager 初步使用
    android学习之Gallery(画廊)
    android学习之handler
    android 学习之AsyncTask
    通过网络路径,返回输入流工具类
    解析输入流 返回二进制数据 工具类
    android学习之 向网络中发送 XML格式数据
  • 原文地址:https://www.cnblogs.com/MTandHJ/p/12305824.html
Copyright © 2011-2022 走看看