- Visual Relationship Detection with Language Priors 2016
visual relationship detection领域的开山之作,检测和定位图上的多对object,然后分别对每一对object的交互关系(predicate)进行分类。
- Scene Graph Generation by Iterative Message Passing 2017
利用场景图对对象和关系进行建模。
- Visual Genome :Connecting Language and Vision Using Crowdsourced Dense Image Annotations 2017
PaStaNet:Toward Human Activity Knowledge Engine 2020
利用part级别的动作状态(part states)进行行为理解,
- A Hierarchical Approach for Generating Descriptive Image Paragraphs 2017
这篇文章提出了一种结构化模型去生成图像段落描述。文章首先利用区域生成网络 (RegionProposal Network)进行区域检测,并将检测到的区域投影到卷积特征图中,通过插值并通过全连接层和最大池化生成一个区域特征向量,该向量作为句子RNN和词RNN两层层次循环网络(Hierarchical Recurrent Networks)的输入并生成对图像的描述段落。
- Deep Reasoning with Knowledge Graph for Social Relationship Understanding 2018
利用了一个图推理模型(Graph Reasoning Model,GRM),由该模型结合门控图神经网络(Gated Graph Neural Network,GGNN)对社会关系进行处理。对社会关系的推理可以作为其他多种任务的辅助,如多目标追踪,人类轨迹预测,群体行为分析。GRM首先根据图上人物区域的特征来初始化关系节点,然后用预先训练的Faster-RCNN探测器搜索图像中的语义对象,并提取其特征,初始化相应的对象节点;之后利用门控图神经网络GGNN负责计算节点特征,并结合图注意力机制帮助理解社会关系。
- Detecting and Recognizing Human-Object Interactions 2018
检测人和物体的交互(interaction)定位和人交互的物体的位置并通过人和物来预测后面的动作
- Object Detection Meets Knowledge Graphs 2017
引入外部知识库来进行辅助目标检测。
- The More You Know: Using Knowledge Graphs for Image Classification 2016
应用知识图谱形式的结构化先验知识到图像分类中,表明利用结构化先验知识可以提高图像分类的性能。
- Something-Else: Compositional Action Recognition With Spatial-Temporal Interaction Networks 2020
用于识别训练集没有的,对操作物体进行替换的动作
- I Know the Relationships: Zero-Shot Action Recognition via Two-Stream Graph Convolutional Networks and Knowledge Graphs 2019
Action Genome: Spatio-temporal Scene Graphs 2020
- Rethinking Knowledge Graph Propagation for Zero-Shot Learning 2019
- Videos as space-time region graphs.
- Learning to Compare: Relation Network for Few-Shot Learning 2018