zoukankan      html  css  js  c++  java
  • 【笔记】论文阅读 | Matching networks for one shot learning

    • 论文信息:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
    • 博文作者:Veagau
    • 编辑时间:2020年01月07日

    本文是2016年NIPS的会议论文,作者来自谷歌的DeepMind。在论文中作者提出一种结合了度量学习(Metric Learning)与记忆增强神经网络(Memory Augment Neural Networks)的新型神经网络结构——Matching Networks(匹配网络)。这种网络利用注意力机制与记忆机制加速学习,实现了在只提供少量样本的条件下无标签样本的标签预测。

    Matching Networks的网络结构示意图如下:

    对于给定的支持集 (S) ,预测新样本数据 (hat{x}) 的标签 (hat{y}) 的概率公式可以表示为:

    [Pleft(hat{y} | hat{x},S ight)=sum_{i=1}^{k}aleft(hat{x},x_i ight)y_i ]

    其中(k) 表示支持集中样本类别数,(aleft(hat{x},x_i ight)) 为注意力计算公式,其计算基于新样本数据与支持集中的样本数据的嵌入表示的余弦相似度以及softmax函数,表达式如下:

    [aleft(hat{x},x_i ight)=frac{e^{c(f(hat{x}),g(x_i))}}{sum_{j=1}^{k}{e^{c(f(hat{x}),g(x_j))}}} ]

    其中 (c) 表示余弦相似度计算,(f)(g) 表示施加在新样本与支持集样本上的嵌入函数(Embedding Function)。

    为了增强样本嵌入的匹配度,作者在文中还提出了Full Context Embeeding(全文嵌入,简记FCE)方法——支持集中每个样本的嵌入应该是相互独立的,而新样本的嵌入应该受支持集样本数据分布的调控,其嵌入过程需要放在整个支持集环境下进行,因此作者采用带有读注意力的LSTM网络对新样本进行嵌入,最后的实验结果表明,引入了FCE的Matching Network的性能得到了明显的提升。

    除了提出新的网络结构外,作者还对ImageNet数据集进行了进一步的加工,提出了适用于Few-shot Learning情景的mini-ImageNet数据集——从ImageNet数据集中抽取100个类别的数据,每个类别有600个样本,成为了继Omniglot数据集之后的第二个FSL标准数据集。

    本文在实验设计时遵循的Train-Test Condition Match(训练-测试条件一致)原则——训练时的任务设置应该与实际测试时的任务设置保持一致,是进行少样本学习实验的一个重要指导方针,能够减少模型的泛化误差,提升模型的鲁棒性。

  • 相关阅读:
    学习网页栅格系统的几篇好文
    [转载]iis6配置使用页面Gzip压缩提速
    img标签的src=""会引起的Page_Load多次执行
    基于sliverlight + wcf的web 文字版IM 示例
    Enterprise Library 4.1学习笔记8缓存应用程序块之FileDependency
    windows 2008上启用防火墙后sqlserver 2005经常出现连接超时的解决办法
    负载均衡环境下的web服务器处理
    Ado.Net连接池的速度测试
    [转载]网页栅格系统研究(1):960的秘密
    css基础:把所有背景图都集成在一张图片上,减少图片服务器请求次数
  • 原文地址:https://www.cnblogs.com/veagau/p/12164335.html
Copyright © 2011-2022 走看看