¹¹institutetext：雷恩大学、Inria、CNRS、IRISA、法国 ²²institutetext：英国伦敦大学学院 ³³institutetext：CIMAT，A.C.，墨西哥

OpenTraj：评估人体轨迹数据集中的预测复杂性

Javad Amirian 11 Bingqing Zhang 22 Francisco Valente Castro 33 Juan José Baldelomar 33 Jean-Bernard Hayet 33 Julien Pettré 11

摘要

人体轨迹预测（HTP）在过去几年中取得了巨大的发展势头，并且已经提出了许多解决方案来解决它。适当的基准测试是比较方法的关键问题，本文解决了评估给定数据集相对于预测问题的复杂程度的问题。为了评估数据集的复杂性，我们围绕三个概念定义了一系列指标：轨迹可预测性；轨迹规律性；上下文复杂性。我们根据这些指标比较 HTP 中最常用的数据集，并讨论这对 HTP 算法基准测试可能意味着什么。我们的源代码发布在Github上 ¹¹1https://github.com/crowdbotp/OpenTraj。

关键词：人体轨迹预测；轨迹数据集；运动预测；轨迹预测；数据集评估；标杆管理

1简介

人类轨迹预测（HTP）对于许多应用来说都是一项至关重要的任务，从自动驾驶汽车到社交机器人等。计算机视觉、移动机器人和人群动力学社区在这个主题上表现得非常活跃。人们提出了许多出色的预测算法，从基于物理的社会力模型[1,2,3]到数据驱动的模型[4,5,6]。

与此同时，我们还努力对现有技术进行适当的基准测试。这导致为此目的创建行人轨迹数据集，或者重新使用最初为其他目的设计的数据集，例如对多对象跟踪算法进行基准测试。大多数 HTP 作品[3,4,5,7]报告两个著名 HTP 数据集序列的性能：ETH 数据集[2]和 UCY 数据集[8]。比较预测性能的指标包括标准化预测任务的平均位移误差（ADE）和最终位移误差（FDE）。其他数据集也以同样的方式使用，但性能比较有时会引起争议，并且仍然很难强调特定序列或数据集上的良好性能对预测算法的意义有多大。

在本文中，我们解决以下问题：（1）如何衡量预测任务的特定数据集的复杂性或难度？ (2) 目前使用的 HTP 数据集相互比较如何？我们能否得出关于最先进算法的优点/缺点的结论？

我们的贡献有两个方面：（1）我们提出了一系列有意义且可解释的指标来评估 HTP 数据集背后的复杂性，（2）我们通过这些指标分析一些最常见的数据集。

在第 3 节中，我们沿三个轴对数据集复杂性进行分类：轨迹可预测性、轨迹规律性和上下文复杂性。在第4节中，我们定义了量化复杂性因素的指标。在第 5 节中，我们将这些指标应用于常见的 HTP 数据集，并在第 6 节中讨论结果。

2 相关工作：HTP 数据集

由于人体的非刚性或遮挡，人体跟踪是一个难题，并引起了人们的广泛关注。为此目的，许多视频数据集被设计为基准测试工具，并在 HTP 中得到广泛使用。随着自动驾驶的最新进展，其他数据集也出现了，涉及更复杂的场景。在本节中，我们提出了 HTP 数据集的分类法，并回顾了一些最具代表性的数据集。

2.1 HTP 数据集动物园：简要分类法

Refer to caption — 图1：用于人类轨迹预测的轨迹数据集的分类。

许多相互交织的因素解释了为什么 HTP 算法的某些轨迹或数据集比其他轨迹或数据集更难预测。在图1中，我们将预测复杂性背后的基本因素总结为圆圈；我们将隐藏因素（蓝色）和受控因素（绿色）分开。在隐藏因素中，我们强调那些与采集（噪声数据）、环境（多模态）或人群相关因素（交互复杂性）相关的因素。有些因素是可以控制的，例如录制平台或位置的选择。为了说明各种设置，图 2 中给出了常见 HTP 数据集的快照。

原始数据可以由单个[2]或多个[9]传感器记录，范围从单目相机[10,11,12]立体相机、RGB-D 相机、LiDAR、RADAR 或混合[13, 9]。传感器可以提供 3D 注释，但大多数 HTP 算法在 2D 数据（地平面）上运行，我们在这里重点关注 2D 分析。

标注可以是手动[2,8,14]、半自动[15]或全自动，使用检测算法[10] 。在大多数数据集中，注释提供了代理在图像中的位置。给定单应性或相机投影矩阵，注释位置可以从图像坐标投影到世界坐标。对于移动传感器（机器人 [16] 或汽车 [14, 9, 13])，数据以传感器为中心，但提供里程数据来获取所有位置一个共同的框架。

2.2 常见 HTP 数据集的简短回顾

来自静态摄像机和无人机的 HTP 数据集。跟踪和监视性能评估 (PETS) 研讨会发布了多个用于对多对象跟踪[17]系统进行基准测试的数据集。特别是，PETS'2009数据集[18]的11个序列是通过8个单目摄像机记录的，包括来自表演行人的数据，具有不同的密度水平，并且具有已用于 HTP 基准测试[19]。还发布了城镇中心数据集 [12] 用于视觉跟踪目的，其中包含监控繁忙城镇中心的视频片段的注释。它涉及大约两千名结构良好（沿街道运动）且行为自然的步行行人。 Wild Track 数据集 [20] 旨在测试恶劣情况（密集人群）中的人员检测，并以 2fps 的速度提供 400 帧序列（来自 $7$ 视图）中的 312 条行人轨迹。 EIF 数据集 [21] 通过头顶摄像头提供了 $\sim$ 大学庭院中人员的 90k 轨迹。 BIWI行人数据集[2]由2个场景组成，包含数百条从事步行活动的行人轨迹。 ATC [22] 数据集包含从 49 个 3D 传感器获取的购物中心 92 天行人轨迹的注释。

UCY 数据集[23]提供了三个步行/站立活动场景。它专为人群模拟而开发，表现出不同的人群密度水平和清晰的流动结构。瓶颈数据集[24]也源自人群模拟并涉及人群控制实验（例如，通过瓶颈）。

VIRAT [25] 专为活动识别而设计。它包含 11 个不同场景、不同环境（停车场、大学校园）和大部分自然行为的带注释轨迹。它通常涉及一两个主体和对象。活动识别的一个特殊案例是体育活动[26]，其中许多数据可以通过运动员跟踪技术获得。

斯坦福无人机数据集 (SDD) [11] 是一个大型数据集，包含 8 个场景中的 60 个序列，由静态无人机拍摄。它提供了大学校园内 $\sim$ 19k 个移动主体的轨迹，以及行人、骑自行车者、滑板者、汽车、公共汽车之间的交互。 DUT 和 CITR [15] 数据集也从悬停无人机中获取，用于评估人与人之间以及汽车与行人之间的互动。它们分别包括 1793 条和 340 条行人轨迹。使用静态无人机获取的 inD 数据集 [10] 包含超过 11K 条道路使用者轨迹，其中大部分是机动车辆。这些场景面向城市交通，包括环岛或道路交叉口的场景。 Ko-PER [27] 追求类似的动机，即监控汽车和非机动用户之间共享的空间。它提供通过激光扫描和视频获取的一个道路交叉口的行人和车辆的轨迹。同样，VRU 数据集 [28] 包含大约 80 条骑自行车者的轨迹，这些轨迹是使用摄像头和 LiDAR 在城市十字路口记录的。 Forking Paths 数据集 [29] 是在 Carla 3D 模拟器下创建的，但它使用真实轨迹，由人类注释者推断以模拟具有不同潜在目标的多模态。

AV 数据集。一些数据集提供为自动驾驶车辆 (AV) 的训练/基准测试算法收集的数据。由于移动数据采集和轨迹通常较短，它们可能会更加困难。 LCAS [30] 是从移动机器人上的 LiDAR 传感器获取的。 KITTI [14] 一直是计算机视觉和机器人领域流行的基准测试源。其跟踪子数据集为 $\sim$ 20 个城市环境中的激光雷达和视频序列提供 3D 标注（汽车/行人）。 AV 公司最近发布了他们的数据集，例如 Waymo [13]，其中包含数小时的高分辨率传感器数据，或者 Argo AI 及其 Argoverse [31] 数据集，具有 3D 跟踪功能对 113 个小序列的 11k 个跟踪对象进行注释。 Nutonomy 公开了其 nuScenes 数据集[9]，其中包含迈阿密和匹兹堡街道的 85 个带注释的场景。

通过元数据集进行基准测试。元数据集旨在增强环境的多样性并测试 HTP 系统的泛化能力。 TrajNet [19]包括ETH、UCY、SDD和PETS；在[32]中，Becker等人提出了对 TrajNet 训练集的全面研究，给出了设计良好预测器以及比较传统回归基线与神经网络方案的技巧。 Trajnet++ [33] 提出了轨迹之间的分类层次结构，以更好地理解数据集中的轨迹分布。到 2020 年中期，Trajnet 上已提交了超过 45 个解决方案，其中包括先进的预测技术[32,4,5,34,35]，还有基于社会力量的模型[1 ] 以及线性预测变量的变体，其准确度达到最佳模型 [35] 的 94%。在这项工作中，我们提供了工具来更深入地了解这些数据集背后的内在复杂性。

3HTP中的问题描述和需求表述

3.1 符号和问题表述

轨迹数据集被称为 $\mathbb{X}$ 。我们假设它由不同代理的 $N_{a}$ 轨迹组成。为了在比较中尽可能公平，我们主要根据绝对时间戳进行推理，即使采集频率可能有所不同。在 $\mathbb{X}$ 内，第 $i$ 个代理( $i\in[1,N_{a}]$ )的完整轨迹由 $\textbf{T}^{i}$ 表示，其起始时间为 $\tau^{i}$ ，其持续时间为 $\delta^{i}$ 。对于 $t\in[\tau^{i},\tau^{i}+\delta^{i}]$ ，我们将代理 $i$ 在 $t$ 处的状态称为 $\textbf{x}^{i}_{t}$ 。我们仅针对时间戳的有限子集（在相机采集时间）观察 $\textbf{x}^{i}_{t}$ 。帧被定义为那些时间的观察集，并用 $\textbf{F}_{t}$ 表示。每个帧包含 $K_{t}$ 代理样本。

状态 $\textbf{x}^{i}_{t}$ 包括笛卡尔系统中以米为单位的2D位置 $\mathbf{p}^{i}_{t}$ 。它通常从图像中获得并映射到世界框架； $m/s$ 中的速度 $\mathbf{v}^{i}_{t}$ 可以通过有限差分或滤波来估计。

为了比较轨迹，按照 HTP 中的常见做法，我们将所有原始轨迹分成具有共同持续时间 $\Delta=4.8s$ 的 $N_{t}$ 轨迹。 HTP 使用 $\Delta_{obs}$ 秒的轨迹作为观察值，并使用接下来的 $\Delta_{pred}$ 秒作为预测目标。此后，以这种方式获得的持续时间 $\Delta$ 的不同轨迹集被称为 $\mathbf{X}^{k}$ ，其中 $k\in[1,N_{t}]$ 覆盖轨迹（可能会重复同一代理）。通常为 $N_{t}\gg N_{a}$ 。每个trajlet可以被视为被观察的部分，并且其对应的目标被称为 $\mathbf{X}^{k}_{+}$ 。

下面，我们使用在不同级别上操作的函数，并具有不同的编写约定。 轨迹级函数 $F(\textbf{X})$ ，使用大写字母，作用于轨迹X。有时，我们考虑特定时间值 $t$ 处的 $F$ 值，此时我们将函数表示为 $F_{t}(\textbf{X})$ 。 帧级函数 $\mathcal{F}(\textbf{F})$ 作用于帧F。

3.2 数据集复杂性

我们在轨迹数据集上定义了三个指标系列，使我们能够对它们进行比较并确定是什么使它们比其他指标更“困难”。

可预测性。可以通过在给定数据集的其余部分的情况下预测单个轨迹的容易程度来分析数据集，而与预测器无关。轨迹分布 $p(\mathbf{X})$ 的可预测性较低，使得预测系统难以应对多模态预测分布，例如在十字路口。在这种情况下，随机预测方法可能比确定性预测方法更好，因为后者通常对训练数据中看到的输出进行平均。

轨迹（ir）规律性。另一个数据集特征是通过轨迹的几何和物理属性来反映“简单”模型的不规则性或偏差。为此，我们将使用速度、加速度。

上下文复杂性。一些指标评估环境的复杂性，即影响个体轨迹进程的外部因素。通常，人群密度对 HTP 的难度有很大影响。

这些指标在不同层面上运作，并且可能相互关联。例如，复杂的场景或高度拥挤可能导致轨迹的几何不规则性和较低的可预测性水平。最后，尽管组合数据集很常见，但我们的分析重点是单个数据集。

4 HTP 数据集复杂性的数值评估

基于第 3 节中的元素，我们提出了几个用于评估数据集难度的指标，其中大多数是 $F(\mathbf{X}^{k})$ 类型，在 trajlet $\mathbf{X}^{k}$ 级别定义。

4.1 trajlet 集合的总体描述

为了探索数据集中的分布 $p(\mathbf{T})$ ，我们首先考虑时间步 $t$ 处行人位置的分布。我们通过将三次样条 $\mathbf{p}_{k}(t)$ 与 $t\in[0,4.8]$ 拟合来参数化每个轨迹。对于 $t\in[0,4.8]$ ，我们获取50个时间样本 $\mathcal{S}(t)=\{\mathbf{p}_{k}(t),\;1\leq k\leq N_{t}\}$ ，并通过聚类和熵分析 $\mathcal{S}(t)$ ：

•

聚类数量 $M_{t}(\mathbb{X})$ ：我们使用期望最大化将高斯混合模型（GMM）拟合到我们的样本集，并使用贝叶斯信息准则[36选择聚类数量]。
•

熵 $H_{t}(\mathbb{X})$ ：我们得到 $\mathcal{S}(t)$ 的核密度估计（参见下面的4.2节），并使用获得的概率估计熵。

高熵意味着许多数据点不会频繁出现，而低熵意味着大多数数据点是“可预测的”。同样，大量的集群将需要更复杂的预测模型。这两个指标让我们了解数据集中所有轨迹随时间的均匀程度。

4.2 评估数据集轨迹的可预测性

为了量化轨迹的可预测性，我们在给定其观测部分的情况下使用轨迹预测部分的条件熵。一些作者[37]也使用了相应密度的最大值。对于轨迹 $\mathbf{X}^{k}\cup\mathbf{X}_{+}^{k}$ ，我们将观察到的 $\mathbf{X}^{k}$ 的条件熵定义为

H(\mathbf{X}^{k})=-E_{\mathbf{X}_{+}}[\log p(\mathbf{X}_{+}|\mathbf{X}^{k})].

(1)

我们使用整个数据集 $\mathbb{X}$ ( $N_{t}$ 轨迹）的核密度估计来估计它。我们在最初的 $\Delta_{obs}$ 秒内有 $N_{obs}$ 个观测点（trajlet $\mathbf{X}_{k}$ ），在最后的 $\Delta_{pred}$ 秒内有 $N_{pred}$ 个预测点（trajlet $\mathbf{X}_{k}^{+}$ ）。我们在沿两条轨迹 $\mathbf{X}$ 和 $\mathbf{X}^{\prime}$ 的连续点之间的欧几里德距离之和上定义高斯核 $K_{h}$ ，每个轨迹都有 $N$ 点（在 $\mathbb{R}^{2N}$ 中）：

K_{h,N}(\mathbf{X},\mathbf{X}^{\prime})=\frac{1}{(2\pi h^{2})^{N}}\exp(-\frac{1}{2h^{2}}\|\mathbf{X}-\mathbf{X}^{\prime}\|^{2}),

(2)

其中 $h$ 是所有维度的公共带宽因子。我们得到近似的条件密度作为两个核密度估计的比率

\displaystyle p(\mathbf{X}_{+}|\mathbf{X}^{k})\approx\frac{\frac{1}{N_{t}}\sum_{l=1}^{N_{t}}K_{h,N_{obs}+N_{pred}}(\mathbf{X}^{k}\cup\mathbf{X}_{+},\mathbf{X}^{l}\cup\mathbf{X}^{l}_{+})}{\frac{1}{N_{t}}\sum_{l=1}^{N_{t}}K_{h,N_{obs}}(\mathbf{X}^{k},\mathbf{X}^{l})}.

(3)

从 $K_{h,N_{obs}+N_{pred}}(\mathbf{X}^{k}\cup\mathbf{X}_{+},\mathbf{X}^{l}\cup\mathbf{X}^{l}_{+})=K_{h,N_{obs}}(\mathbf{X}^{k},\mathbf{X}^{l})K_{h,N_{pred}}(\mathbf{X}_{+},\mathbf{X}_{+}^{l})$ 开始，我们可以表达式（1）的分布： 3 为以下高斯混合：

p(\mathbf{X}_{+}|\mathbf{X}^{k})\approx\sum_{l=1}^{N_{t}}\omega_{l}(\mathbf{X}^{k})K_{h,N_{pred}}(\mathbf{X}_{+},\mathbf{X}_{+}^{l})\mbox{ with }\omega_{l}(\mathbf{X}^{k})=\frac{K_{h,N_{obs}}(\mathbf{X}^{k},\mathbf{X}^{l})}{\sum_{l=1}^{N_{t}}K_{h,N_{obs}}(\mathbf{X}^{k},\mathbf{X}^{l})}.

(4)

对于 trajlet $\mathbf{X}^{k}$ ，我们通过从等式中采样 $M$ 样本 $\mathbf{X}^{(m)}_{+}$ 来估计 $H(\mathbf{X}^{k})$ 。 4：

H(\mathbf{X}^{k})\approx-\frac{1}{M}\sum_{m=1}^{M}\log(\sum_{l=1}^{N_{t}}\omega_{l}(\mathbf{X}^{k})K(\mathbf{X}^{(m)}_{+},\mathbf{X}_{+}^{l})).

(5)

4.3 评估轨迹规律性

在本节中，我们定义了几何和统计指标，用于评估数据集中的个体轨迹 $\mathbf{X}^{k}$ 的规则程度。

4.3.1 运动属性。

通过速度分布获得第一系列指标，其中速度定义为： $s(\textbf{x}_{t})=\left\|\mathbf{v}_{t}\right\|$ 。在轨迹 $\mathbf{X}^{k}$ 级别，我们评估沿轨迹的速度平均值和最大偏差

	$\displaystyle S^{avg}(\mathbf{X}^{k})=\operatorname*{\mathrm{average}}_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(s(\textbf{x}_{t}))$		(6)
	$\displaystyle S^{rg}(\mathbf{X}^{k})=\max_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(s(\textbf{x}_{t}))-\min_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(s(\textbf{x}_{t})).$		(7)

速度越高，位移越大，目标行踪越不确定。此外，速度变化可以反映高级属性，例如环境中的人员活动或该环境的复杂性。

规律性是通过加速度 $a(\textbf{x}_{t})\approx\frac{1}{dt}[s(\textbf{x}_{t+dt})-s(\textbf{x}_{t})]$ 来评估的。它可以根据社会力模型[1]反映智能体与其环境的交互：智能体通常保持其首选速度，而没有理由改变它。当代理避免碰撞或加入群体时，会出现高加速度。我们考虑沿 $\mathbf{X}^{k}$ 的平均和最大加速度

A^{avg}(\mathbf{X}^{k})=\operatorname*{\mathrm{average}}_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(|a(\textbf{x}_{t})|);\;\;A^{max}(\mathbf{X}^{k})=\max_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(|a(\textbf{x}_{t})|).

(8)

4.3.2 轨迹的非线性。

路径效率定义为轨迹端点之间的距离与轨迹长度的比率：

F(\textbf{X}^{k})=\frac{\left\|p_{\tau^{k}+\delta^{k}}-p_{\tau^{k}}\right\|}{\int_{t=\tau^{k}}^{\tau^{k}+\delta^{k}}dl}.

(9)

它的值越高，路径越接近直线，因此我们预计对于 $F(\textbf{X}^{k})$ 的高值，预测任务将“更容易”。

另一个指标是线性运动的平均角度偏差。为了估计它，我们通过将所有轨迹平移到坐标系原点并旋转它们来对齐所有轨迹，以使第一个速度与 $x$ 轴对齐：

\displaystyle\mathbf{\hat{X}}^{k}=\begin{bmatrix}\mathbf{R}({-\measuredangle\mathbf{v}_{0}^{k}})&-\mathbf{p}_{0}^{k}\end{bmatrix}\begin{bmatrix}\mathbf{X}^{k}\\ 1\end{bmatrix}^{T}.

(10)

则轨迹 $\mathbf{X}^{k}$ 在 $t$ 处的偏差及其平均值定义为：

D_{t}(\mathbf{X}^{k})={\measuredangle\mathbf{\hat{X}}_{t}^{k}}\mbox{ and }D(\mathbf{X}^{k})=\operatorname*{\mathrm{average}}_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}(D_{t}(\mathbf{X}^{k})).

(11)

4.4 评估上下文复杂性

数据采集环境可能会以不同的方式影响 HTP。它可以通过引入相关性来简化预测：对于群体，可以更容易地从其他群体成员预测一个人的动作。一般来说，社交互动导致的调整可能会产生非线性（以及较低的可预测性）。

4.4.1 避免碰撞

是最基本的交互类型。更高的密度会导致更多的交互，这方面也通过下面的密度指标进行评估。然而，高密度人群可能会简化预测（例如，人流层流）。为了反映基于避碰的交互的强度，我们使用最近接近距离（DCA）[38]在 $t$ ，对于一对代理 $(i,j)$ ：

\operatorname*{\mathrm{dca}}(t,i,j)=\sqrt{\|\mathbf{x}^{i}_{t}-\mathbf{x}^{j}_{t}\|^{2}-(\max(0,\frac{(\mathbf{v}^{i}_{t}-\mathbf{v}^{j}_{t})^{T}(\mathbf{x}^{i}_{t}-\mathbf{x}^{j}_{t})}{\|\mathbf{v}^{i}_{t}-\mathbf{v}^{j}_{t}\|}))^{2}},

(12)

对于 trajlet $\mathbf{X}^{k}$ （相对于代理 $i_{k}$ )，我们考虑总体最小值

C(\mathbf{X}^{k})=\min_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}\min_{j}\operatorname*{\mathrm{dca}}(t,i_{k},j).

(13)

在[39]中，作者认为碰撞时间（TTC）与轨迹调整密切相关。一对代理 $i, j$ 的 TTC（建模为半径为 $R$ 的圆盘），在保持其速度时将发生碰撞，为

\tau(t,i,j)=\frac{1}{\|\mathbf{v}^{i}_{t}-\mathbf{v}^{j}_{t}\|^{2}}[\delta^{ij}_{t}-\sqrt{(\delta^{ij}_{t})^{2}-\|\mathbf{v}^{i}_{t}-\mathbf{v}^{j}_{t}\|^{2}(\|\mathbf{x}^{i}_{t}-\mathbf{x}^{j}_{t}\|^{2}-4R^{2})}]

(14)

其中 $\delta^{ij}_{t}=(\mathbf{v}^{i}_{t}-\mathbf{v}^{j}_{t})^{T}(\mathbf{x}^{i}_{t}-\mathbf{x}^{j}_{t})$ 。在[39]中，作者还提出将行人之间的交互强度量化为 $\tau$ 的能量函数：

E({\tau})=\frac{k}{\tau^{2}}e^{-\frac{\tau}{\tau^{+}}},

(15)

其中 $k$ 是缩放因子， $\tau^{+}$ 是 TTC 的上限。与[39]一样，我们估计行人之间的实际TTC概率密度（来自方程14)，而不是在没有交互的情况下出现的概率密度（使用时间扰乱方法） [39])。然后我们用等式估计 $E(\tau)$ 。 15。由于 $\tau$ 的明确定义值的范围可能很小，因此我们将数据分组为 $0.2s$ 区间，并使用 t 检验找出下限 $\tau^{-}$ 当两个连续的 bin 显着不同时 $(p<0.05)$ 。上限 $\tau^{+}$ 固定为 $3s$ 。 TTC 和能量相互作用针对轨迹进行了扩展（仅当存在未来碰撞时）：

T(\mathbf{X}^{k})=\min_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}\min_{j}\tau(t,i_{k},j)\mbox{ and }E(\mathbf{X}^{k})=E(T(\mathbf{X}^{k})).

(16)

4.4.2 密度和距离测量。

对于框架 $\textbf{F}_{t}$ ,全局密度定义为每单位面积 $\mathcal{D}(\textbf{F}_{t})=\frac{K_{t}}{\textbf{A}(\mathbb{X})}$ 的代理数量， $K_{t}$ 为单位面积的代理数量。 $t$ 和 $\textbf{A}(\mathbb{X})$ 处存在的代理表示 $\mathbb{X}$ 的空间范围，根据 $x, y$ 极值进行评估。 局部密度衡量邻域内的密度。 Plaue 等人 [40] 使用最近邻核估计器推断它。对于点 $\mathbf{x}_{t}$ ，

\rho(\mathbf{x}_{t})=\frac{1}{2\pi}\sum_{i=1}^{K_{t}}\frac{1}{(\lambda d_{t}^{i})^{2}}\exp{\left(-\frac{\|{\mathbf{x}^{i}_{t}-\mathbf{x}_{t}}\|^{2}}{2(\lambda d_{t}^{i})^{2}}\right)},

(17)

其中 $d_{t}^{i}=\min_{j\neq i}\|{\mathbf{x}^{i}_{t}-\mathbf{x}^{j}_{t}}\|$ 是从 $i$ 到其最近邻居的距离， $\lambda>0$ 是平滑参数。 $\rho$ 用于评估 trajlet-wise 局部密度指示器

L(\mathbf{X}^{k})=\max_{t\in[\tau^{k},\tau^{k}+\delta^{k}]}\rho(\mathbf{x}^{i_{k}}_{t}).

(18)

5实验

表格1：评估数据集的一般统计数据。这些列显示了收集数据的位置类型、采集方式、带注释的行人数量、四舍五入的持续时间（以m分钟或小时为单位），分别是所有轨迹的总持续时间、轨迹数量和非静态轨迹的百分比。

Dataset		Location	Acquisition	#peds	duration	total dur.	#trajlets	non-static
ETH	Univ	univ entrance	top-view cam	360	13m	1h	823	93%
ETH	Hotel	urban street	top-view cam	390	12m	0.7h	484	66%
UCY	Zara	urban street	top-view cam	489	18m	2.1h	2130	75%
UCY	Students	univ campus	top-view cam	967	11.5m	4.5h	4702	96%
SDD	Coupa	univ campus	drone cam	297	26m	4.5h	5,394	41%
	Bookstore			896	56m	9.5h	11,239	54%
	DeathCircle			917	22.3m	4.2h	8,288	62%
inD	inD-Loc(1)	urban intersection	drone cam	800	180m	7.1h	8302	94%
inD	inD-Loc(2)	urban intersection	drone cam	2.1k	240m	18h	21234	95%
Bottleneck	1D Flow(w=180)	simulated corridor	top-view cam	170	1.3m	1h	940	99%
	2D Flow(w=160)	simulated corridor	top-view cam	309	1.3m	1.5h	1552	100%
	Edinburgh Sep{1,2,4,5,6,10}	univ forum	top-view cam	1.2k	9h	3h	2124	83%
	GC Station	train station	surveillance cam	17k	1.1h	79h	76866	99%
	Wild-Track	univ campus	multi-cam	312	3.3m	1.3h	1215	57%
	KITTI	urban streets	lidar& multi-cam	142	5.8m	0.3h	253	93%
	LCas-Minerva	univ-indoor	lidar	878	11m	4.8h	3553	83%

在本节中，我们根据上一节中介绍的指标分析一些常见的 HTP 数据集。在表 1 中，我们给出了我们选择评估的数据集的统计数据（位置、代理数量、持续时间……）。我们收集了 HTP 评估中最常用的数据（特别是 ETH、UCY、SDD）和来自各种模式（静态摄像机、无人机、自动驾驶车辆……）的数据集，以包括第 2.1。

对于那些包含非常不同的子序列的子序列，例如 ETH、UCY、SDD、inD 和 Bottleneck（在图中也用 BN 表示），我们将它们分成它们的构成序列。另请注意，我们仅关注行人（没有骑自行车的人或汽车）。我们还排除了包含少于 100 个轨迹的任何数据集（例如 UCY Arxiepiskopi 或 PETS）。

为了分析数据集 $\mathbb{X}$ ，我们系统地应用以下预处理

1.

必要时投影到世界坐标。
2.

将注释下采样到 2-3 fps 帧速率；
3.

恒定加速度模型卡尔曼平滑的应用；
4.

将生成的轨迹分割为长度为 $\Delta=4.8$ s 的轨迹 $\mathbf{X}^{k}$ ，并过滤掉短于 $1$ m 的轨迹。

我们最后回顾一下之前介绍过的 trajlet-wise 指标：

Overall description	Entropy $H_{t}(\mathbb{X}^{k})$ and clusters $M_{t}(\mathbb{X})$ (section 4.1).
Predictability	Cond. entropy $H(\mathbf{X}^{k})$ (Eq. 5).
Regularity	Speed $S^{avg}(\mathbf{X}^{k}),S^{rg}(\mathbf{X}^{k})$ (Eq. 7).
	Acceleration $A^{avg}(\mathbf{X}^{k}),A^{max}(\mathbf{X}^{k})$ (Eq. 8).
	Efficiency $F(\textbf{X}^{k})$ (Eq. 9).
	Angular deviation $D(\textbf{X}^{k})$ (Eq. 11).
Context	Closest approach $C(\mathbf{X}^{k})$ (Eq. 13).
	Time-to-collision $T(\mathbf{X}^{k})$ , energy $E(\mathbf{X}^{k})$ (Eq. 16).
	Local density $L(\mathbf{X}^{k})$ (Eq. 18).

trajlet 集的总体描述。

对于4.2节的指标，我们在基于核的密度估计中选择了 $h=0.5m$ 作为高斯分布；用于评估熵的样本数为 $M=30$ ；对无条件或条件轨迹分布进行聚类时的最大聚类数为 $21$ 。在图3中，我们绘制了沿着数据集轨迹以不同进展速率的总体熵和簇数量的分布。毫不奇怪，对于 SDD 或 inD 等结构化程度较低的数据集（没有主要定向流），观察到较高的熵值。簇的数量遵循类似的趋势，表明可能是多模态的。

可预测性指标。

在图4中，我们描述了 $H(\mathbf{X}^{k})$ 的值，每个轨迹 $\mathbf{X}^{k}$ 有一个点。有趣的是，除了瓶颈序列（其中高密度产生随机性）之外，数据集之间对熵分布的支持是相似的。造成差异的可能是这些分布中的尾部：较大的下尾部表示易于预测的轨迹的比例较高，而较大的上尾部表示较高比例的难以预测的轨迹。

规律性指标。

在图5中，我们描绘了等式1中的规律性指标 $S^{avg}(\mathbf{X}^{k}),S^{rg}(\mathbf{X}^{k}),A^{avg}(\mathbf{X}^{k}),A^{max}(\mathbf{X}^{k})$ 的分布。 7 和 8。平均速度通常以 $1$ 和 $1.5m/s$ 为中心。数据集之间的差异随着速度变化和平均加速度而出现：ETH 或 UCY Zara 序列不会表现出较大的速度变化，例如与狂野赛道相比。在图6a中，我们描述了方程（1）的路径效率 $F(\textbf{X}^{k})$ 。 9，我们观察到 ETH、UCY 路径往往更直。由于人群内部的相互作用，更复杂的路径出现在瓶颈中，或者由于环境复杂性而出现在 SDD-deathCircle、EIF 中。在图6b中，显示了沿轨迹的不同进展速率的偏差 $D_{t}(\mathbf{X}^{k})$ ，并反映了类似的趋势。

上下文复杂性指标。

用于估计方程式中的 TTC。 14，我们设置 $R=0.3m$ ，对于方程的相互作用能。 15，我们设置 $k=1$ 。方程的局部密度。 18 使用 $\lambda=1$ 。在图7中，我们显示了第4.4节中描述的防撞相关指标（TTC、DCA和相互作用能），而在图8 大多数样品具有较低的相互作用能，但有趣的相互作用水平是可见的 Zara，InD。大多数数据集的全局密度保持小于 0.1 $p/m^{2}$ ，而在 InD(1&2)、爱丁堡和 SDD (Coupa & Bookstore) 中，甚至小于 $0.02$ 。瓶颈（1d 和 2d）是非常高密度的场景。因此我们将它们分开描述。大多数自然轨迹数据集的局部密度约为 $0-4p/m^{2}$ ，而在瓶颈中该数字更高 ( $2-4p/m^{2}$ )。通过这两个密度指标，像 WildTrack 这样的数据集具有较高的全局密度和较低的局部密度，表明占用相对稀疏。相反，印度的低整体密度和高局部密度表明行人更加聚集。这一观察结果也反映在交互作用和熵指标中。

6讨论

在上一节的研究结果中，图4显示大多数数据集的可预测性在大致相同的范围内变化。关于数据集的运动属性（见图5)，另一个发现是行人的平均速度，在大多数情况下，其变化范围为 1.0 到 1.5 m/s。然而，Bottleneck数据集的情况并非如此，因为人群的高密度不允许行人以“正常”速度移动。在 SDD 数据集中，我们观察到多个行人在校园里漫步。如图6b所示，这些低速运动通常与线性运动的高偏差相关，尽管这种影响部分与场景布局的复杂性有关。

此外，对于大多数数据集，trajlet 的速度变化几乎保持在 0.5 以下。对于LCas和WildTrack来说，这不是一个真实的假设。正如人们所预料的那样，轨迹的平均/最大加速度的分布与速度变化高度相关。在图 6a 中，我们看到几乎所有值都大于 90%。对于瓶颈，我们看到了这种现象，即通过增加人群密度和降低人群速度，路径的效率会降低。

7 结论和未来的工作

我们在这项工作中提出了一系列指标，用于深入了解人体轨迹预测数据集的内在复杂性。这些指标涵盖轨迹可预测性和规律性以及行人间互动水平的复杂性等概念。根据这些指标，HTP 中常用的数据集表现出截然不同的特征。特别是，它可以解释为什么不使用社交交互的显式建模并将轨迹视为独立过程的预测技术可能在数据集上相当成功，例如，大多数轨迹具有较低的碰撞能量；它还可能表明，一些更新的数据集具有更高的密度和代理之间的交互，可以提供有关预测算法质量的更可靠的信息。最后，这里提出的轨迹分析为基准测试过程的一些演变打开了大门，因为我们可以通过在所提出的指标的函数中重新加权目标轨迹来评估分数。

致谢

这项研究得到了 CrowdBot H2020 EU 项目 http://crowdbot.eu/ 和英特尔概率计算计划的支持。 Francisco Valente Castro 所做的工作得到了 CONACYT 提供的理学硕士奖学金的赞助，学者注册号为 1000188。

参考

[1] Helbing, D., Molnar, P.: Social force model for pedestrian dynamics. Physical review E 51 (1995) 4282–4286
[2] Pellegrini, S., Ess, A., Schindler, K., van Gool, L.: You’ll never walk alone: Modeling social behavior for multi-target tracking. In: Proc. of the IEEE Int. Conf. on Computer Vision (ICCV). (2009) 261–268
[3] Yamaguchi, K., Berg, A.C., Ortiz, L.E., Berg, T.L.: Who are you with and where are you going? In: Proc. of the IEEE Int. Conf. Computer Vision and Pattern Recognition (CVPR). (2011) 1345–1352
[4] Alahi, A., Goel, K., Ramanathan, V., Robicquet, A., Fei-Fei, L., Savarese, S.: Social lstm: Human trajectory prediction in crowded spaces. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2016) 961–971
[5] Gupta, A., Johnson, J., Fei-Fei, L., Savarese, S., Alahi, A.: Social gan: Socially acceptable trajectories with generative adversarial networks. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2018) 2255–2264
[6] Salzmann, T., Ivanovic, B., Chakravarty, P., Pavone, M.: Trajectron++: Dynamically-feasible trajectory forecasting with heterogeneous data. arXiv preprint abs/2001.03093 (2020)
[7] Amirian, J., Hayet, J.B., Pettré, J.: Social ways: Learning multi-modal distributions of pedestrian trajectories with GANs. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition Workshops (CVPRW). (2019) 2964–2972
[8] Lerner, A., Chrysanthou, Y., Lischinski, D.: Crowds by example. Computer Graphics Forum 26 (2007) 655–664
[9] Caesar, H., Bankiti, V., Lang, A.H., Vora, S., Liong, V.E., Xu, Q., Krishnan, A., Pan, Y., Baldan, G., Beijbom, O.: nuScenes: A multimodal dataset for autonomous driving. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2020) 11621–11631
[10] Bock, J., Krajewski, R., Moers, T., Runde, S., Vater, L., Eckstein, L.: The ind dataset: A drone dataset of naturalistic road user trajectories at german intersections. arXiv preprint abs/1911.07692 (2019)
[11] Robicquet, A., Sadeghian, A., Alahi, A., Savarese, S.: Learning social etiquette: Human trajectory understanding in crowded scenes. In: Proc. of the European Conf. on Computer Vision, Springer (2016) 549–565
[12] Benfold, B., Reid, I.: Guiding visual surveillance by tracking human attention. In: Proc. of the British Machine Vision Conference (BMVC). (2009)
[13] Sun, P., Kretzschmar, H., Dotiwalla, X., Chouard, A., Patnaik, V., Tsui, P., Guo, J., Zhou, Y., Chai, Y., Caine, B., Vasudevan, V., Han, W., Ngiam, J., Zhao, H., Timofeev, A., Ettinger, S., Krivokon, M., Gao, A., Joshi, A., Zhao, S., Cheng, S., Zhang, Y., Shlens, J., Chen, Z., Anguelov, D.: Scalability in perception for autonomous driving: Waymo open dataset. arXiv preprint abs/1912.04838 (2019)
[14] Geiger, A., Lenz, P., Stiller, C., Urtasun, R.: Vision meets robotics: the KITTI dataset. The International Journal of Robotics Research 32 (2013) 1231–1237
[15] Yang, D., Li, L., Redmill, K., Ozguner, U.: Top-view trajectories: A pedestrian dataset of vehicle-crowd interaction from controlled experiments and crowded campus. In: Proc. of the IEEE Intelligent Vehicles Symposium (IV). (2019) 899–904
[16] Ess, A., Leibe, B., Van Gool, L.: Depth and appearance for mobile scene analysis. In: Proc. of the IEEE Int. Conf. on Computer Vision (ICCV). (2007) 1–8
[17] Leal-Taixé, L., Milan, A., Reid, I., Roth, S., Schindler, K.: Motchallenge 2015: Towards a benchmark for multi-target tracking. arXiv preprint abs/1504.01942 (2015)
[18] Ferryman, J., Shahrokni, A.: Pets2009: Dataset and challenge. In: Proc. of the IEEE Int. Workshop on Performance Evaluation of Tracking and Surveillance (PETS). (2009) 1–6
[19] Sadeghian, A., Kosaraju, V., Gupta, A., Savarese, S., Alahi, A.: Trajnet: Towards a benchmark for human trajectory prediction. arXiv preprint abs/1805.07663 (2018)
[20] Chavdarova, T., Baqué, P., Bouquet, S., Maksai, A., Jose, C., Bagautdinov, T., Lettry, L., Fua, P., Van Gool, L., Fleuret, F.: Wildtrack: A multi-camera hd dataset for dense unscripted pedestrian detection. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2018) 5030–5039
[21] Majecka, B.: Statistical models of pedestrian behaviour in the forum. Master’s thesis, School of Informatics, University of Edinburgh (2009)
[22] Brscic, D., Kanda, T., Ikeda, T., Miyashita, T.: Person position and body direction tracking in large public spaces using 3d range sensors. IEEE Transactions on Human-Machine Systems 43 (2013) 522–534
[23] Lerner, A., Chrysanthou, Y., Lischinski, D.: Crowds by example. Computer Graphics Forum 26 (2007) 655–664
[24] Seyfried, A., Passon, O., Steffen, B., Boltes, M., Rupprecht, T., Klingsch, W.: New insights into pedestrian flow through bottlenecks. Transportation Science 43 (2009) 395–406
[25] Oh, S., Hoogs, A., Perera, A., Cuntoor, N., Chen, C.C., Lee, J.T., Mukherjee, S., Aggarwal, J., Lee, H., Davis, L., Swears, E., Wang, X., Ji, Q., Reddy, K., Shah, M., Vondrick, C., Pirsiavash, H., Ramanan, D., Yuen, J., Torralba, A., Song, B., Fong, A., Roy-Chowdhury, A., , Desai, M.: A large-scale benchmark dataset for event recognition in surveillance video. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2011) 3153–3160
[26] Harmon, M., Lucey, P., Klabjan, D.: Predicting shot making in basketball learnt from adversarial multiagent trajectories. arXiv preprint abs/1609.04849 (2016)
[27] Strigel, E., Meissner, D., Seeliger, F., Wilking, B., Dietmayer, K.: The ko-per intersection laserscanner and video dataset. In: Proc. of the IEEE Conf. on Intelligent Transportation Systems (ITSC). (2014) 1900–1901
[28] Bieshaar, M., Zernetsch, S., Hubert, A., Sick, B., Doll, K.: Cooperative starting movement detection of cyclists using convolutional neural networks and a boosted stacking ensemble. arXiv preprint abs/1803.03487 (2018)
[29] Liang, J., Jiang, L., Murphy, K., Yu, T., Hauptmann, A.: The garden of forking paths: Towards multi-future trajectory prediction. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition. (2020) 10508–10518
[30] Yan, Z., Duckett, T., Bellotto, N.: Online learning for human classification in 3d lidar-based tracking. In: Proc. of the IEEE/RSJ Int. Conf. on Intelligent Robots and Systems (IROS). (2017) 864–871
[31] Chang, M.F., Lambert, J.W., Sangkloy, P., Singh, J., Bak, S., Hartnett, A., Wang, D., Carr, P., Lucey, S., Ramanan, D., Hays, J.: Argoverse: 3d tracking and forecasting with rich maps. In: Proc. of the Int. Conf. on Computer Vision and Pattern Recognition (CVPR). (2019) 8748–8757
[32] Becker, S., Hug, R., Hübner, W., Arens, M.: An evaluation of trajectory prediction approaches and notes on the trajnet benchmark. arXiv preprint abs/1805.07663 (2018)
[33] Kothari, P., Kreiss, S., Alahi, A.: Human trajectory forecasting in crowds: A deep learning perspective. (2020)
[34] Ellis, D., Sommerlade, E., Reid, I.: Modelling pedestrian trajectory patterns with gaussian processes. In: Proc. of the IEEE Int. Conf. on Computer Vision Workshops (ICCVW). (2009) 1229–1234
[35] Giuliari, F., Hasan, I., Cristani, M., Galasso, F.: Transformer networks for trajectory forecasting. arXiv preprint abs/2003.08111 (2020)
[36] Claeskens, G., Hjort, N.L. Cambridge Series in Statistical and Probabilistic Mathematics. In: The Bayesian information criterion. Cambridge University Press (2008) 70–98
[37] Li, M., Westerholt, R., Fan, H., Zipf, A.: Assessing spatiotemporal predictability of lbsn: A case study of three foursquare datasets. GeoInformatica 22 (2016)
[38] Olivier, A.H., Marin, A., Crétual, A., Berthoz, A., Pettré, J.: Collision avoidance between two walkers: Role-dependent strategies. Gait and Posture 38 (2013) 751 – 756
[39] Karamouzas, I., Skinner, B., Guy, S.J.: Universal power law governing pedestrian interactions. Phys. Rev. Lett. 113 (2014) 238701
[40] Plaue, M., Chen, M., Bärwolff, G., Schwandt, H.: Trajectory extraction and density analysis of intersecting pedestrian flows from video recordings. In: Proc. of the ISPRS Conf. on Photogrammetric Image Analysis. (2011) 285–296