zoukankan      html  css  js  c++  java
  • 多模态数据联合Embedding的方法小结

    当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合。

    • 向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
    • Multimodal Compact Bilinear pooling (MCB)[1],首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中,两个低维向量再做out product得到矩阵(作者使用FFT在频域上进行out product以降低计算复杂度,再将结果转换回来)。随后还有Multimodal Low-rank Bilinear pooling (MLB)[2]、Multimodal Factorized Bilinear pooling (MFB)[3]原理都较为类似。
    • Multimodal Residual Networks (MRN)[4]受到深度残差结构的启发,利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。

    [1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

    [2] Hadamard product for low-rank bilinear pooling

    [3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering

    [4] Multimodal residual learning for visual qa

  • 相关阅读:
    序列化二叉树
    把二叉树打印成多行
    按之字形顺序打印二叉树
    对称的二叉树
    二叉树的下一个节点
    java ee项目用gradle依赖打包
    spring cloud gateway 拦截request Body
    oauth2学习
    docker 应用
    gradle spring 配置解释
  • 原文地址:https://www.cnblogs.com/LukeStepByStep/p/11209317.html
Copyright © 2011-2022 走看看