【CV论文阅读】Detecting events and key actors in multi-person videos

zoukankan html css js c++ java

【CV论文阅读】Detecting events and key actors in multi-person videos

论文主要介绍一种多人协作的视频事件识别的方法，使用attention模型+RNN网络，最近粗浅地学习了RNN网络，它比较适合用于处理序列的存在上下文作用的数据。

NCAA Basketball数据集

这个数据集是作者新构建的，一个事件4秒长度，在论文中共需识别11个事件。而且从训练集子集通过标注人物的bounding box学习了一个multibox detector，来识别所有帧中的人物bounding box。

RNN模型

论文使用了RNN模型中的LSTM来处理帧序列。网络的结构如下图，其中BLSTM代表双向的LSTM结构

每个Pi-BLSTM跟踪每个人物帧序列中的状态，方框的厚度代表attention作为key人物的权值。

首先，每一帧提取1024维度的特征，而对于每帧的每一个player，提取2805维特征（1440维位置spatial的信息以及1365维appearance信息）。首先使用BLSTM计算hidden state ，它保存了全局上下文的信息。计算式子如下

然后可以利用单向的LSTM计算事件状态

最后，对于每个事件k，都定义一个权向量，计算它们的内积来确定事件的分类。误差函数可以定义：

其中是对于视频原label，如果属于k则为1，否则为-1。

Attention 模型

Attention模型的主要作用在于识别主人物并增大他在计算event state中所起的作用，在这里会利用一个softmax函数来实现上述的功能。论文提出了两种思路，分别是对每个人物进行跟踪的模型以及不跟踪的模型。

跟踪模型

利用KTL tracker和图匹配找到每帧对应的人物，并为每个人物建立一个BLSTM网络，用于计算hidden state ，得。计算softmax函数分配每个人物在每一帧的权重，从而识别关键人物，如下计算

其中是一个多层感知机。

非跟踪模型

直接使用替代，可以得到计算方法为

查看全文

相关阅读:
JS-得到屏幕宽高、页面宽高
 CSS3-border-radius 属性
 从30岁到35岁：为你的生命多积累一些厚度【转载】
HTML5-IOS WEB APP应用程序（IOS META）
HTML-Meta中的viewport指令
 EasyUI-window包含一个iframe，在iframe中如何关闭window
JS-为句柄添加监听函数
 EasyUI-EasyUI框架入门学习
 Linux下的C编程
 ***经典笔试题

原文地址：https://www.cnblogs.com/jie-dcai/p/5773527.html