zoukankan      html  css  js  c++  java
  • Visual Translation Embedding Network for Visual Relation Detection论文中的术语以及对论文的理解笔记

     弄懂基本上的专有术语以后,阅读理解论文的速度就会大大增快,所以,看到每篇论文的生词就记录下来,方便以后查阅和学习!

    2.中的术语:object dection(目标检测),region proposal network(RPN  区域推荐网络),

     bilinear interpolation(双线性插值),Faster-RCNN,

    3.中subject-predicate-object(主语-谓语-宾语),relation annotation(关系采样),softmax(回归模型),Feature Extraction(特征提取),

    Visual Feature(视觉特征),weighted concatenation(加权连接),ROI pooling解析,non-maximum suppression (NMS 非极大值抑制),

    intersection over union (IoU 重叠区域),Optimization(优化),

    confident region(置信区域),

    4.中的术语:JointBox(联合标记框),State of The Arts(时下最优算法),Phrase Detection(短语检测)。

    2.3视觉关系检测不仅仅是标记出目标们所在区域,更要描述它们的相互关系。

    3.2位置特征不但在检测空间或者借此关系时有用,而且在检测动词时也有用,比如,当谓语是“骑”的时候,主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。

    3.3训练用的图片使用一个“主谓宾”三元组来标记,其中每个不同的主体或者目标用边界框注释出来。在测试阶段,VTransE输入一张图片,输出一个检测到的目标的集合,并且输出每一对目标的集合,并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数,这就使得目标和关系能够相互学习。

    4.1目前主要有两个大规模关系检测数据集,VRD(视觉关系数据集)和VG。

    4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测,VTransE则对一对主体和目标进行预测。为了较为公平的比较,我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明,大部分谓词VTransE都能预测正确,而联合框方法在某些确定的模式下很可能产生偏差。比如,联合框预测“park on”这个动作仅局限于汽车,而VTransE方法则可以将这个动作扩展到飞机和公共汽车(问题,VTransE具体是怎么样工作的,为什么能扩展到飞机和公共汽车)。VTransE则可以则表现地更理解“beneath”的含义。
    4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法,是的关系预测产生的错误能够反向传播到目标检测模块。

    4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。

    一生有所追!
  • 相关阅读:
    【微信小程序】数组操作
    iOS中html打开APP传参
    给radio加自己的样式(图片)
    TCP和IP的三次握手和第四次挥手
    什么是HTTP协议
    http和https的区别
    微信小程序-点击图片预览
    JAVASE
    thinkphp自学笔记
    前端必须掌握的30个CSS选择器
  • 原文地址:https://www.cnblogs.com/BlueBlue-Sky/p/9135248.html
Copyright © 2011-2022 走看看