zoukankan      html  css  js  c++  java
  • KMM

    Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.

    MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?

    主要内容

    我们有两组数据(Z = ((x_1, y_1), (x_2, y_2), ldots, (x_m, y_m)) subseteq mathcal{X} imes mathcal{Y}), (Z' = ((x_1', y_1'), (x_2', y_2'), ldots, (x_n', y_n')) subseteq mathcal{X} imes mathcal{Y}), 分别来自分布(mathrm{Pr}(x, y))(mathrm{Pr}'(x, y)).

    一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数

    [R(mathrm{Pr}, heta, ell(x, y, heta)) = mathbb{E}_{(x, y) sim mathrm{Pr}} [ell(x, y, heta)], ]

    但是我们真正想要优化的是(R(mathrm{Pr}', heta, ell(x, y, heta))), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到

    [R[mathrm{Pr}', heta, ell(x, y, heta)] = mathbb{E}_{(x, y) in mathrm{Pr'}} [ell(x, y, heta)]=mathbb{E}_{(x, y) sim mathrm{Pr}} [frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)} ell(x, y, heta)], ]

    并记(eta(x, y) := frac{mathrm{Pr}'(x, y)}{mathrm{Pr}(x, y)})(若成立), 则

    [R[mathrm{Pr}', heta, ell(x, y, heta)] = R[mathrm{Pr}, heta, eta(x, y)ell(x, y, heta)]. ]

    这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计(eta(x, y)), 本文研究一种特殊的情况:

    [mathrm{Pr}(x, y) = mathrm{P}(y|x) mathrm{Pr}(x) , quad mathrm{Pr}'(x, y) = mathrm{P}(y|x) mathrm{Pr}'(x), ]

    即 covariate shift, 此时

    [eta(x, y) = frac{mathrm{Pr}(x)}{mathrm{Pr}'(x)}. ]

    首先, 根据MMD我们知道, 两个分布差异性可以量化为

    [mathrm{MMD}[mathcal{F},p,q] := sup_{f in mathcal{F}} (mathbb{E}_p [f(x)] - mathbb{E}_q[f(y)]), ]

    当我们限制(mathcal{F})为 universal RKHS (mathcal{H})的时候, 上式可表示为

    [mathrm{MMD}[mathcal{H}, p, q] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [f(x)] - mathbb{E}_q [f(x)] = sup_{|f|_{mathcal{H}} le 1} mathbb{E}_p [langle phi_x, f angle_{mathcal{H}}] - mathbb{E}_q [langle phi_x, f angle_{mathcal{H}}] = |mu_p-mu_q|_{mathcal{H}}. ]

    在此处, 我们关注(用(phi(x))表示(phi_x))

    [|mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]|, ]

    即我们希望找到一个权重(eta(x))使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:

    [min_{eta} quad |mu(mathrm{Pr}') - mathbb{E}_{x sim mathrm{Pr}(x)} [eta(x) phi(x)]| \ mathrm{s.t.}quad eta(x) ge 0, mathbb{E}_{x sim mathrm{Pr}(x)}[eta(x)] = 1. ]

    在实际问题中, 我们只有分布中的有限的采样, 也就是开头的(Z, Z'), 上述问题变为

    [|frac{1}{m} sum_{i=1}^m eta_i phi(x_i)- frac{1}{n} sum_{i=1}^n phi(x_i')|^2 = frac{1}{m^2}eta^T K eta - frac{2}{mn}kappa^T eta + mathrm{const}, ]

    其中(kappa_i := sum_{j=1}^{n} k(x_i, x_j')). 于是, 我们优化如下的问题

    [min_{eta} quad frac{1}{2} eta^T K eta - frac{m}{n}kappa^Teta \ mathrm{s.t.} quad eta_i in [0, B], |sum_{i=1}^m eta_i - m| le mepsilon. ]

    限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.

  • 相关阅读:
    兼容性和工程化
    对象
    用JavaScript实现学生管理系统
    用JavaScript实现视频弹幕发送
    数据结构
    数据结构和函数
    JavaScript的基本语法
    JS概括及基本语法
    MongoDB数据库的简单安装与使用
    epxress 的安装与配置
  • 原文地址:https://www.cnblogs.com/MTandHJ/p/14007655.html
Copyright © 2011-2022 走看看