多模态数据联合Embedding的方法小结 - 走看看

zoukankan html css js c++ java

多模态数据联合Embedding的方法小结
当模型需要接受多个模态的数据时，往往需要设计合适的方法让他们能进行信息的融合，Joint embedding是一种较为普遍的思路，即将他们映射到同一个向量空间中，再进行融合。
- 向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
- Multimodal Compact Bilinear pooling (MCB)^[1]，首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中，两个低维向量再做out product得到矩阵（作者使用FFT在频域上进行out product以降低计算复杂度，再将结果转换回来）。随后还有Multimodal Low-rank Bilinear pooling (MLB)^[^2]、Multimodal Factorized Bilinear pooling (MFB)^[3]原理都较为类似。
- Multimodal Residual Networks (MRN)^[4]受到深度残差结构的启发，利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。
[1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

[2] Hadamard product for low-rank bilinear pooling

[3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering

[4] Multimodal residual learning for visual qa
查看全文

相关阅读:
java基础知识回顾之javaIO类---InputStreamReader和OutputStreamWriter转化流
 java基础知识回顾之javaIO类---FileInputStream和FileOutputStream字节流复制图片
 基本知识《一》继承初始化过程
 java调用matlab函数
 Dubbo基础篇-zookeeper安装（单点）
《转》从0到100——知乎架构变迁史
 算法
 【转】基于LDA的Topic Model变形
 《转》探寻微博背后的大数据原理：微博推荐算法简述
 一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

原文地址：https://www.cnblogs.com/LukeStepByStep/p/11209317.html

Copyright © 2011-2022 走看看