Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记

zoukankan html css js c++ java

Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记

弄懂基本上的专有术语以后，阅读理解论文的速度就会大大增快，所以，看到每篇论文的生词就记录下来，方便以后查阅和学习！

2.中的术语：object dection（目标检测），region proposal network（RPN 区域推荐网络），

bilinear interpolation（双线性插值），Faster-RCNN，

3.中subject-predicate-object（主语-谓语-宾语），relation annotation（关系采样），softmax（回归模型），Feature Extraction（特征提取），

Visual Feature（视觉特征），weighted concatenation（加权连接），ROI pooling解析,non-maximum suppression (NMS 非极大值抑制)，

intersection over union (IoU 重叠区域)，Optimization(优化)，

confident region(置信区域)，

4.中的术语：JointBox（联合标记框），State of The Arts（时下最优算法），Phrase Detection（短语检测）。

2.3视觉关系检测不仅仅是标记出目标们所在区域，更要描述它们的相互关系。

3.2位置特征不但在检测空间或者借此关系时有用，而且在检测动词时也有用，比如，当谓语是“骑”的时候，主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。

3.3训练用的图片使用一个“主谓宾”三元组来标记，其中每个不同的主体或者目标用边界框注释出来。在测试阶段，VTransE输入一张图片，输出一个检测到的目标的集合，并且输出每一对目标的集合，并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数，这就使得目标和关系能够相互学习。

4.1目前主要有两个大规模关系检测数据集，VRD（视觉关系数据集）和VG。

4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测，VTransE则对一对主体和目标进行预测。为了较为公平的比较，我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明，大部分谓词VTransE都能预测正确，而联合框方法在某些确定的模式下很可能产生偏差。比如，联合框预测“park on”这个动作仅局限于汽车，而VTransE方法则可以将这个动作扩展到飞机和公共汽车（问题，VTransE具体是怎么样工作的，为什么能扩展到飞机和公共汽车）。VTransE则可以则表现地更理解“beneath”的含义。
4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法，是的关系预测产生的错误能够反向传播到目标检测模块。

4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。

一生有所追！

查看全文

相关阅读:
Python Day 10 函数、函数作用、组成部分、返回值return作用
 SSM三大框架整合详细教程（Spring+SpringMVC+MyBatis
深入理解HTTP Session
JSP中两种include的区别
 Spring MVC控制层传递对象后在JSP页面中的取值方法
 Servlet和Filter的url匹配以及url-pattern详解及 filter 循环问题的解决
 SSH:Action中Service无法实例化
 java实现邮箱找密码
 登陆界面验证码实现
 css 行内元素块元素替换元素非替换元素以及这些元素的width height margin padding 特性

原文地址：https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html