文献阅读报告

zoukankan html css js c++ java

文献阅读报告
概览

简述

文献所提出的模型旨在解决交通中行人的轨迹预测（pedestrian trajectory prediction）问题，特别是在拥挤环境中——人与人交互（interaction）行为常有发生的地方。

文献构建的数据驱动模型，利用在序列预测上表现突出的LSTM模型以行人为单位进行轨迹预测，同时为了解决多个行人的LSTMs之间无法捕捉行人空间中交互的问题，模型在LSTMs每一步运行之间加入了“Social”池化层，池化层将整合其他行人的隐藏状态（Hidden State），并作为隐藏状态一部分传递下去，最终形成模型Social LSTM。

由于池化层的引入，使得LSTMs间出现动态数据（在模型运行中才能得到）的依赖，模型训练时需要有多个LSTMs同步并行运行和反向传播，为了简化训练压力，文献也提出了O-LSTM模型，该模型可针对每位行人的轨迹进行独立的训练。

最后，文献使用了ETH和UCY两个公开数据库数据，从轨迹平均误差、重点误差和轨迹非线性区间误差三个指标衡量多重模型的预测性能，得出Social-LSTM和O-LSTM性能整体上优于其他模型的结论。

相关研究

前人对交互环境下的轨迹预测已经提出了多种方法，例如以Social Force为基础的将行人行动模型之间刻画吸引力和排斥力的模型，已发展出了相当多的方法，然而文献中提到这些方法大都受限于两个方面：
1. 需要手工构造函数以刻画交互而不是数据驱动，导致模型的环境适应性差，并且只能较好捕捉简单的交互情景。
2. 模型所针对的通常是距离很相近的情景，而没有考虑更远距离可能发生的交互。
数据库

数据源：ETH、UCY

数据格式（经处理和提取以适应此训练任务）

元数据标签：time frame（时间片序号）、pedestrian ID（行人标识符）、position x、position y

时间精度：time frame之间间隔均为10的倍数，精度为0.4秒

位置精度：训练数据中x和y均经过标准化处理，(0 <= x,y <= 1) 。源数据中x，y，z精度为米。

横向评估标准
1. Average displacement error：即均方误差（MSE）。(MSE = frac{1}{N}{ sum_{i=1}^n(Y_i - hat Y_i)^2})
2. Final displacement error：终点平方误差。(DSE = (Y_{T_{pred}} - hat Y_{T_{pred}})^2)
3. Average non-linear displacement error：MSE的改良版，误差计算周期不再是整个周期，而是轨迹有明显非线性变化的区域，旨在突出Social LSTM对非线性轨迹预测的效果。非线性区域判断依据是自适应阈值的轨迹二阶导数，但并未在源代码中找到相关实现。
Social LSTM模型简介

LSTM

LSTM模型被证明为解决序列预测问题的有效方式，由一个LSTM Cell经过多次迭代，每步迭代中都会接受输入和产生输出，从而产生序列型输出。有关RNN及LSTM标准模型本文不再详细介绍，此处仅说明实际应用时的要点。
1. 建模方法：一“条”LSTM模型对应一个行人的轨迹序列，所有LSTM模型都共用同一个LSTM Cell。
2. 输入输出：不考虑Minibatch的实际训练方法对数据维度的影响：LSTM Cell每步运行的输入数据格式为“由[x,y]经embedding后得到的向量”；LSTM Cell每步运行的输出数据经线性变换后成为([ mu_x, mu_y, sigma_x, sigma_y, ho ])，之所以不是平面二维的2个数据，是由于原文采用了输出数据分布为二维高斯分布的假设，5个数据恰对应高斯分布参数。
3. 池化层引入必要性：由建模方法和输入输出可知，在现有LSTMs模型中的LSTM之间完全独立，运行前中后都没有数据信息的共享，因此无法表现行人间交互信息。为此，Social LSTM在上图所示的(h_1, h_2, h_3, ..., h_t)上进行改动以达到每“条”LSTM运行一步后都会进行信息共享，Social LSTM Cell的隐藏状态将由池化层经处理整合后得到。
Social Tensor

Social Tensor是使得每位行人的LSTM模型进行信息交换的途径，实质是一个池化层，每个行人(i)在每个时间点(t)均对应一个Social Tensor-(H^i_t)，用于记录在该行人划定的范围(Z^i_t)中，其他行人的信息，并作为行人(i)隐藏状态的一部分，参与其下一步轨迹预测从而起到传递行人间交互信息的作用。

量化描述：

Shape : [(N_0), (N_0), (D)]（其中(N_0)是(Z_i)区域的进一步等距划分，(D)是隐藏状态 Hidden State的维度大小）

数据组成：每个(H^i_t)均由其他LSTM模型的(h^i_t)按一定策略加和。首先，只有处在(Z^t_i)区域中的行人的LSTM模型的(h^i_t)会被累积；其次，(Z_t^i)区域存在进一步分区，对于被累积的(h^i_t)，其会被累加至对应的分区上。

[H_t^i(m,n,:) = sum_{j in N_i } 1_{mn}[x_t^j - x_t^i, y_t^j - y_t^i]h_{t-1}^j ]
其中，(1_{mn}[...])是01函数用于判断是否处在区域中，(h_{t-1}^j)是隐藏状态，(N_i)是相邻行人。

Occupancy Map Pool

Social Tensor池化的简化版，使得模型训练时无需同时处理所有的轨迹，下述公式也可看出Tensor中不再统计隐藏状态的值，而只统计行人数量。

[O_t^i(m,n,:) = sum_{j in N_i} 1_{mn}[x_t^j - x_t^i, y_t^j - y_t^i] ]
研究拓展方向
1. 拓展模型至多类别道路对象（行人、自行车、滑板等），在Occupancy Map 中有自己的标签。
2. 将场景的静态图片作为Social LSTM模型的额外输入，在描述Person-Person的交互的基础上，描述Person-Space的交互。
查看全文

相关阅读:
电话线路使用的带通虑波器的宽带为3KHz (300～3300Hz)，根据奈奎斯特采样定理，最小采样频率应为（16）。
总线宽度为32bit，时钟频率为200MHz，若总线上每5个时钟周期传送一个32bit的字,则该总线的带宽为 (4) MB/S。
安全需求可划分为物理安全、网络安全、系统安全和应用安全，下面的安全需求中属于系统安全的是（67），属于应用安全的是（68）。
IP地址202.117.17.254/22是什么地址？
公司的到一个B类地址块，需要划分成若干个包含1000台主机的子网，则可以划分成几个？
PGP(Pretty Good Privacy)是一种电子邮件加密软件包，它提供数据加密和数字签名两种服务，采用（42)进行身份认证，使用（43) (128位密钥）进行数据加密，使用（44)进行数据完整性验证。 A.RSA公钥证书 B.RSA私钥证书 C.Kerboros证书 D.DES私钥证书
 comet反向Ajax模型原理与模型（笔记一）
EasyARM-iMX257_U-Boot源代码移植分析
 linux移植u-boot(一)——U-Boot详解+自定义命令实战
 Ajax实现大文件切割上传

原文地址：https://www.cnblogs.com/sinoyou/p/11227348.html

文献阅读报告

概览

简述

相关研究

数据库

横向评估标准

Social LSTM模型简介

LSTM

Social Tensor

Occupancy Map Pool

研究拓展方向