Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers - 走看看

zoukankan html css js c++ java

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers

2020-12-23 11:54:13

Paper: https://arxiv.org/pdf/2004.00849

　　预训练模型如火如荼，多模态预训练也没有掉队。其中，image-language 领域，如何将这两者联合学习是一个较为火热的方向。本文提出一种基于跨模态 transformer 的模型，来进行联合特征的学习。整体方法示意图如下：

　　从上图可以看出，作者用 transformer 模型对 language 进行编码。同时，用 CNN 抽取图像的特征，然后输入到一个特征映射模块中。该模块的特色是，随机的从中扣取 local feature patch，以防止过拟合。然后 language 和 vision feature 组合在一起，放到 transformer 模型中。本文采用两种训练损失，即：图像文本匹配的训练方法和掩模预测的训练方法。

　　从计算资源来看，本文在 64 张 V100 上进行了训练。一般人，玩不起。。。

　　训练方法上来说，对 CNN 用 SGD, 对 Transformer 部分用 AdamW 分别进行优化。

查看全文

相关阅读:
教您搭建与布署NTP网络时钟服务器
 利用北斗卫星系统设计NTP网络时间服务器
 GPS同步时钟（北斗时间服务器）守时方法研究
 京准讲述NTP时钟服务器应用及原理
 标准化考场时钟系统（电子时钟）时间同步设备
 北斗授时产品详解与应用
 IRIG-B码对时是变电站自动化系统的基本要求
 北斗同步时钟（主时钟控制器）应用于电气化铁道远动系统
 IEEE1588PTP在数字化变电站时钟同步方面的应用
 thinkphp6学习教程与源码 tp6开源CMS系统源码研究

原文地址：https://www.cnblogs.com/wangxiaocvpr/p/14177823.html

Copyright © 2011-2022 走看看