zoukankan      html  css  js  c++  java
  • 论文阅读 | Recurrent Filter Learning for Visual Tracking

    Contribution

    1. 提出一个新颖的recurrent filter learning 框架从而去捕捉空间与时间信息,并且不要求在线fine-tune(on tracking)
    2. 设计一个高效有效的初始化和更新target appearance 方法,具体而言就是conv LSTM作为记忆单元更新目标表观

    网络结构

    在这里插入图片描述
    从groundtruth来crop object exemplar (E_{t})(127 * 127 * 3)经过E-CNN(exemplar feature extractor),得到exemplar feature(e_{t})(6 * 6 * 256),作为conv-LSTM的输入,conv-LSTM接收(e_{t}),还接受上一个状态的hidden state (h_{t-1})和cell state (c_{t-1}),产生当前状态的hidden state (h_{t})(6 * 6 * 1024)和cell state (c_{t})(6 * 6 * 1024), 产生的hidden state (h_{t}) 经过output layer(1 * 1 * 256的卷积核) 产生 object filter (f_{t}) (6 * 6 * 256),在下一帧的Search image (S_{t+1})(255 * 255 * 3)经过 S-CNN 特征提取之后得到Search image feature(22 * 22 * 256)进行correlation 操作(实际是卷积)得到响应映射(R_{t})(17 * 17)

    S-CNN 与E-CNN

    S-CNN 与E-CNN参数是不同的(实验证明这样的效果是最好的),卷积网络结构是相同的网络如图
    在这里插入图片描述
    conv 之后都有用BatchNormalization加速网络收敛,除了Conv-5 ,都用激活函数ReLu

    convolutional LSTM 的结构

    在这里插入图片描述
    结构与原始的LSTM结构相似,只不过sigmod前面加了卷积层(3 * 3 filter),保存图像的空间结构
    在这里插入图片描述
    初始化cell state (c_{0}),hidden state (h_{0})第一帧的exemplar 用E-CNN提取(e_{0})再用(3* 3 *1024)conv filter 进行的卷积在经过tanh 初始化完成。

    loss fuction

    在这里插入图片描述
    在这里插入图片描述

    Training Details

    mini-batchSize是长度为10的10个视频剪辑, 数据增广,随机干扰色,图片镜像变换,拉伸等,

    Online tracking

    我们没有用BBox regression,而是用bicubic 插值做,选择最大值位置作为目标位置,并构建尺度金子塔
    (R^{m}(f_{t},s_{t+1}) = f_{t}*s_{t+1}^m)
    (v^m)是 response map (R^m)在尺度m上的最大值.
    找到(v^m)最大的那个尺度
    在尺度m 上求出前k个score的平均位置,
    (p^{*}=frac{1}{K}sumlimits_{k}^{K}{p_{k}})

  • 相关阅读:
    【Leetcode】Unique Binary Search Trees
    linux C函数之access函数的用法
    Dispatcher.BeginInvoke()方法使用不当导致UI界面卡死的原因分析
    【Leetcod】Unique Binary Search Trees II
    KVM客户机使用主机USB设备
    运行Maven是报错:No goals have been specified for this build
    SQL2008R2 express版本不支持维护计划
    已超过了锁请求超时时段的原因
    Oracle免客户端InstantClient安装使用
    将存储过程的返回值赋给变量
  • 原文地址:https://www.cnblogs.com/Zak-NoS/p/10941822.html
Copyright © 2011-2022 走看看