1.运用场景
用于文本-图像特征学习,共建语义空间。
2.创新点
learning a joint text-video embedding called Mixture-of-Embedding-Experts(MEE);
the model is designed to handle missing video modalities during training and enables simultaneous learning from heterogeneous data sources;
文本召图像/图像召文本;
3.算法原理
3.1 网络框架

3.2 MEE
4.算法理解
MEE模型主要用于根据文本召回图像/视频,或者根据视频召回文本,其构建了一个文本和视频的公共空间,通过计算文本和视频特征的相似度来做相关召回。该模型支持多模态特征输入,且支持模态缺失,同时引入注意力机制,具有良好的效果。