zoukankan      html  css  js  c++  java
  • Towards Inheritable Models for Open-Set Domain Adaptation笔记

    Towards Inheritable Models for Open-Set Domain Adaptation笔记

    方法概述

    现有方法都假设可以访问一个已标注的源域样本集。然而在有些时候,源域由于专有性质或隐私问题,样本的使用会受到限制,例如在医疗、生物等一些特殊的行业,有些敏感数据是不能被公布出来的。源域样本与目标域样本共存的依赖无法满足,现有方法也就无法直接使用源域样本来进行目标域样本的识别分类。所以在源域样本不存在或不可访问的背景设定下,Kundu等人提出供应商——客户模式以及一种面对开放集域适应的可继承模型(Inheritable Models),并提出一种策略来量化模型中的可继承性。

    作者通过提出供应商——客户模式来描述源域样本缺失下的无监督域适应场景,之后设计可继承模型并交付供应商训练,以此从供应商的源域获取特定任务的知识。之后将训练完毕的可继承模型交付给客户。在源域样本缺失的情况下,客户对模型进行可继承性的量化,确保为目标域选择最合适的模型,并在继承模型后对其进行适当的调整。

    供应商——客户模式

    供应商——客户模式是一个实际的无监督域适应下的场景,它假设供应商和客户之间不存在数据交换,而且规定单个供应商模型可以与多个客户共享,从而最大限度地减少在训练上花费的精力。其形象化描述如下:

    供应商拥有已标注的源域样本(D_s),客户拥有未标注的目标域样本(D_t),供应商使用源域样本训练分类器(h_s)来获取源域的条件概率分布(p(y_s|x_s)),并把训练后的模型(h_s)分享给客户。通过模型(h_s)以及目标域的样本(D_t)客户可以学习到一个目标分类器(h_t)来获取目标域的条件概率分布(q(y_t|x_t))

    可继承模型

    可继承模型是一个自适应模型,它能够有效地从源域获取特定任务的知识,并将这些知识迁移到目标域。模型的可继承性则指的是模型在不访问源域样本的情况下跨域继承和传递知识的能力。给定一个假设类(mathcal{H}{h|h:mathcal{X} ightarrow mathcal{Y} }),一个可继承的模型(h_s)应该能够在缺失源域样本的情况下供客户去学习一个分类器(h_t),使得(h_t)的性能接近(mathcal{H})中的最佳分类器的性能。

    (mathcal{H})作为一个假设类,在满足下述条件时,作者认为在源域的样本上训练的分类器(h_s)相对于(mathcal{H})来说是可继承的:

    当目标分类器(h_t)能够访问(h_s)的参数的时候,使用目标域未标注的样本(D_t={x_t:x_tsim q_x})(q_x)表示目标域的边缘分布概率)来学习目标分类器(h_t),在概率至少为((1-delta))的情况下,(h_t)的目标误差不会超过(mathcal{H})中最佳分类器的目标误差(epsilon(epsilon >0,0<delta<1)),即image-20201026093519736其中image-20201026093535189(xi(h))表示分类器h的错误率。

    这个定义表明,在缺乏源域样本的情况下,可继承模型能够可靠地将任务特定的知识转移到目标域。

    特征拼接生成负实例

    由于源域的样本不可访问,为了更好地识别目标域中处于私有标签空间中的样本,该方法使用特征拼接技术生成负实例,来扩充源域的样本集。

    负实例数据集定义为(D_n={(u_n,y_n):u_nsim r_n,y_nsim r_{{y|u}}}),其中(u_n,y_n)分别表示负实例的样本与标签,(r_n)则表示负实例潜在空间的边缘概率分布(r_{{y|u}})表示负实例的条件分布。该方法将源域样本分布空间中低密度的区域作为负实例样本所在的分布,如图5-2-2-4所示。

    image-20201026094014644

    图5-2-2-4 包含负实例的可继承模型

    为了获得(D_n),作者提出使用特征拼接技术来生成负实例。

    众所周知,在深层CNN网络中,高层卷积层专门用于捕获能够区分类别之间的特征。由于CNN的这种特性,每当在输入中观察到属于源域特定类别的特征时,特征图都会接收到高激活。因此,通过抑制这样的较高激活,就可以获得不属于源域特定类别属性的特征,从而更准确地识别目标域中属于私有标签空间的样本

    image-20201026094113409

    图5-2-2-5 特征拼接图解

    特征拼接技术是指在特定特征层中,用属于不同类别样本的相应激活来替换前d百分位的激活,如图5-2-2-5所示,图中颜色的深浅表示激活值的高低。这个过程产生了一个新的特征,它不是源域中某个特定类别的特征,但是位于源域样本的分布附近。为了标注这些负实例,该方法执行一个K均值聚类,并为每个样本聚类分配一个唯一的负实例类别标签。通过训练分类器(G_n)将这些样本分类为K个负实例类别,获得目标域私有标签空间中的样本特征,进而在客户适应模型时,将共享标签空间中属于私有标签空间的样本精确分离。

    模型的结构及训练

    在无监督开集域适应中,主要的挑战是解决负迁移问题。这一挑战源于深度模型中的过度自信问题,即目标域中属于私有标签空间的样本未被正确地从共享标签空间分离,而是被“过度自信”地分类到共享标签空间中,从而错误地分类到源域的某个类别。

    以往的方法倾向于利用域鉴别器在适应期间为潜在的目标域私有标签空间中的样本分配低实例级权重来避免负迁移。然而,在源域与目标域之间没有数据交换的情况下,上述解决方案是不可行的。因此,可继承模型要具有表征源域样本分布的能力,从而在适应期间检测目标域中属于私有标签空间的样本。

    可继承模型的架构包括供应商训练客户适应两部分,以下分别针对每个部分进行详细描述。

    架构中的供应商训练部分由特征提取器(F_s)分类器G两部分组成,如图5-2-2-3所示。其中特征提取器(F_s)由一个骨干卷积神经网络(Convolutional Neural Networks, CNN)(M_s)与全连接层(E_s)组成;分类器G由源域分类器(G_S)与分类器(G_n)组成,其中(G_n)用来探测目标域中属于私有标签空间的样本。两个分类器通过softmax激活函数进行连接。

    image-20201026094420683

    图5-2-2-3 模型架构中的供应商训练部分

    关于供应商对模型的训练,首先使用(D_S),最小化交叉熵损失(L_b)来预训练({F_s,G_s}):

    image-20201026094528622

    其中(sigma)表示softmax激活函数。然后固定CNN骨干网络(M_s),使用(M_s)最后一层提取到的源域样本的特征,通过特征拼接技术生成负实例(D_n),然后使用(D_s)以及(D_n),通过最小化损失(L_s)来继续训练模型({E_s,G_s,G_n}),

    image-20201026094717455

    一旦可继承模型(h_s={F_s,G})完成了训练,就会将该模型转移到客户手中。

    架构中的客户适应部分由之前供应商训练部分中的特征提取器(F_s)以及分类器G,和一个由(F_t={M_t,E_t})组成,如图5-2-2-4所示。

    ![image-20201026095102586](<https://gitee.com/Jason66661010/imagecloud/raw/master/img/20201026095104.png)

    图5-2-2-4模型架构中的客户适应部分

    客户得到经过训练后的可继承模型(h_s),第一个任务是衡量域偏移的程度,以确定供应商模型的可继承性。接下来是一个选择性的适应过程,在该过程中完成共享标签空间中源域与目标域样本分布的对齐,同时避免负迁移

    量化可继承性

    客户拿到供应商训练完的可继承模型后,首先要进行模型可继承性的量化衡量。在域偏移程度较小的情况下,大多数共享标签空间中的样本都位于潜在空间中的高密度区域附近,因此,可以依靠(h_s)的类别可分性知识来进行目标样本的标注。然而,随着域偏移的增加,高密度区域附近的目标样本的浓度降低,这种知识变得不太可靠。由此可见,(h_s)对于目标任务的可继承性会随着域偏移的增加而降低

    于是该方法定义了一个可继承性度量标准(W),满足:

    image-20201026095842272

    其中(p_x)表示源域的边缘分布,(q^{sh}_x)表示目标域共享标签空间的边缘概率分布,(q^{uk}_x)表示目标域私有标签空间的边缘概率分布。之后该方法利用分类器的置信度来实现可继承性的实例级度量

    image-20201026095951605

    其中(c_i)表示类别,(sigma)表示softmax激活函数。

    由于供应商的模型架构中分类器G的输出由softmax函数连接,所以这里置信度最大值的衡量是在分类器(G_s)的输出中完成的。也就是说,源域样本在$G_s$分类器中拥有最高的置信度,目标域共享标签空间中的样本置信度次之,置信度最低的是目标域私有标签空间中的样本。

    为进一步扩展实例级的可继承性,该方法在整个目标域样本集下定义了一个衡量继承性的模型:

    image-20201026100108067

    (mathcal{I})值更高,表示域偏移的程度越小,这意味着任务特定的知识的可继承性更大。

    选择性适应

    客户对模型的适应包括两个步骤——继承调整。其中继承是为了获得类别可分性知识,而调整则是为了避免负迁移。

    对于继承来说,(h_s)的类可分性知识对于可继承性度量(W)较高的目标域样本是可靠的。随后,该方法基于(W(x_t))来选择前k百分位目标域样本,并使用由供应商传递来的模型(h_s)获得上述样本的伪标签image-20201026100250782

    通过最小化交叉熵损失(L_{inh}),使得目标预测的结果匹配这些样本的伪标签,从而继承类可分性知识:image-20201026100319581

    对于调整来说,在缺乏标签信息的情况下,熵最小化方法被广泛用于将未标注样本的特征移向高置信度区域。然而,为了避免负迁移,该方法并没有直接使用熵最小化,而是在损失函数中使用(W)作为软实例权重具有较高(W)的目标域样本被导向到高密度区域,而具有较低(W)的目标域样本被推入低密度区域。这种分离是减少负迁移影响的关键。

    首先使用分类器G获得一个样本属于共享标签空间的概率:image-20201026100500309,之后最小化损失(L_{t1})来促进属于目标域私有标签空间的样本从共享标签空间中分离:image-20201026100537591。为了进一步鼓励共享标签空间的样本分布在精细级别上对齐,该方法分别计算概率向量:image-20201026100555342并最小化损失(L_{t2}):image-20201026101658404其中的H表示香农熵。

    则总的适应损失就是:

    image-20201026101759663

    最终客户通过继承与调整两个步骤,在最小化总适应损失(L_a)模型变可以较好地适配目标域的特定任务。

    性能分析

    在可继承模型开集域适应方法中,作者分别使用Office-31数据集以及office-home数据集来进行方法性能的验证。其中在Office-31数据集的设定中,源域的类别数为10个,目标域的类别数为20个;在office-Home数据聚集的设定中,源域的类别数为25个,目标域的类别数为65个。作者使用ResNet网络、RTN以及前面的迭代分配变换开集域适应(ATI-(lambda))和反向传播开集域适应(OSBP)来作为实验的基线。实验的结果分别如图5-2-3-8、图5-2-3-9所示。

    image-20201026102125496

    图5-2-3-8方法三在Office-31数据集中OS、OS*项的实验结果

    image-20201026102153508

    图5-2-3-9方法三在office-Home数据集中OS、OS*项的实验结果

    在实验过程中,作者还验证该方法在不同开放度下的鲁棒性较其它基线更为突出,如图5-2-3-10所示。

    image-20201026102229935

    图5-2-3-10方法三在不同开放度下的实验结果

    除了常见的验证方法之外,由于该方法单个源域生成的模型可以供多个目标域样本共享,于是针对这一部分,作者通过与普通基线方法在训练时间方面进行对比,证实这样的策略确实可以有效缩短训练的时间。

  • 相关阅读:
    Java实现 LeetCode 400 第N个数字
    Java实现 LeetCode 400 第N个数字
    Java实现 LeetCode 399 除法求值
    Java实现 LeetCode 399 除法求值
    Java实现 LeetCode 399 除法求值
    Java实现 LeetCode 398 随机数索引
    Java实现 LeetCode 398 随机数索引
    Java实现 LeetCode 398 随机数索引
    linux中的cd ..和cd -命令有什么区别?
    GCC使用
  • 原文地址:https://www.cnblogs.com/Jason66661010/p/13877370.html
Copyright © 2011-2022 走看看