zoukankan      html  css  js  c++  java
  • KMM

    Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.

    MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?

    主要内容

    我们有两组数据(Z = ((x_1, y_1), (x_2, y_2), ldots, (x_m, y_m)) subseteq mathcal{X} imes mathcal{Y}), (Z' = ((x_1', y_1'), (x_2', y_2'), ldots, (x_n', y_n')) subseteq mathcal{X} imes mathcal{Y}), 分别来自分布(mathrm{Pr}(x, y))(mathrm{Pr}'(x, y)).

    一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数

    [R(mathrm{Pr}, heta, ell(x, y, heta)) = mathbb{E}_{(x, y) sim mathrm{Pr}} [ell(x, y, heta)], ]

    但是我们真正想要优化的是(R(mathrm{Pr}', heta, ell(x, y, heta))), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到

    [R[mathrm{Pr}', heta, ell(x, y, heta)] = mathbb{E}_{(x, y) in mathrm{Pr'}} [ell(x, y, heta)]=mathbb{E}_{(x, y) sim mathrm{Pr}} [frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)} ell(x, y, heta)], ]

    并记(eta(x, y) := frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)})(若成立), 则

    [R[mathrm{Pr}', heta, ell(x, y, heta)] = R[mathrm{Pr}, heta, eta(x, y)ell(x, y, heta)]. ]

    这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计(eta(x, y)), 本文研究一种特殊的情况:

    [mathrm{Pr}(x, y) = mathrm{P}(y|x) mathrm{Pr}(x) , quad mathrm{Pr}'(x, y) = mathrm{P}(y|x) mathrm{Pr}'(x), ]

    即 covariate shift, 此时

    [eta(x, y) = frac{mathrm{Pr}(x)}{mathrm{Pr}'(x)}. ]

    首先, 根据MMD我们知道, 两个分布差异性可以量化为

    [mathrm{MMD}[mathcal{F},p,q] := sup_{f in mathcal{F}} (mathbb{E}_p [f(x)] - mathbb{E}_q[f(y)]), ]

    当我们限制(mathcal{F})为 universal RKHS (mathcal{H})的时候, 上式可表示为

    [mathrm{MMD}[mathcal{H}, p, q] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [f(x)] - mathbb{E}_q [f(x)] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [langle phi_x, f angle_{mathcal{H}}] - mathbb{E}_q [langle phi_x, f angle_{mathcal{H}}] = |mu_p-mu_q|_{mathcal{H}}. ]

    在此处, 我们关注(用(phi(x))表示(phi_x))

    [|mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]|, ]

    即我们希望找到一个权重(eta(x))使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:

    [min_{eta} quad |mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]| \ mathrm{s.t.}quad eta(x) ge 0, mathbb{E}_{x sim mathrm{Pr}(x)}[eta(x)] = 1. ]

    在实际问题中, 我们只有分布中的有限的采样, 也就是开头的(Z, Z'), 上述问题变为

    [|frac{1}{m} sum_{i=1}^m eta_i phi(x_i)- frac{1}{n} sum_{i=1}^n phi(x_i')|^2 = frac{1}{m^2}eta^T K eta - frac{2}{mn}kappa^T eta + mathrm{const}, ]

    其中(kappa_i := sum_{j=1}^{n} k(x_i, x_j')). 于是, 我们优化如下的问题

    [min_{eta} quad frac{1}{2} eta^T K eta - frac{m}{n}kappa^Teta \ mathrm{s.t.} quad eta_i in [0, B], |sum_{i=1}^m eta_i - m| le mepsilon. ]

    限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.

  • 相关阅读:
    HDU 1124 Factorial
    hdu 1690 Bus System
    hdu 1113 Word Amalgamation
    POJ 2482 Stars in Your Window
    hdu 1385 ZOJ 1456 Minimum Transport Cost(经典floyd)
    hdu 1907 John
    VMware 虚拟机 安装 UBuntu 9.10 命令模式转换成窗口模试
    #pragma CODE_SEG __NEAR_SEG NON_BANKED详解
    Ubuntu 下Hadoop 伪分布式 hadoop0.20.2.tar.gz 的安装
    文件拷贝代码以及疑问
  • 原文地址:https://www.cnblogs.com/MTandHJ/p/14007655.html
Copyright © 2011-2022 走看看