用于

稳健轨迹预测的可解释的自我意识神经网络

Masha Itkina and Mykel J. Kochenderfer
Department of Aeronautics and Astronautics, Stanford University
{mitkina,mykel}@stanford.edu

摘要

尽管神经网络作为预测模型在各个领域取得了巨大成功，但它们对分布外 (OOD) 数据的预测可能过于自信。为了适用于自动驾驶汽车等安全关键型应用，神经网络必须准确估计其认知或模型不确定性，从而实现一定程度的系统自我意识。认知不确定性量化训练技术通常需要在推理期间或多个神经网络前向传递期间使用 OOD 数据。这些方法可能不适合高维输入的实时性能。此外，现有方法缺乏估计不确定性的可解释性，这限制了它们对工程师进一步系统开发和自治堆栈中的下游模块的有用性。我们建议使用证据深度学习来估计轨迹预测设置中低维、可解释的潜在空间的认知不确定性。我们引入了一种可解释的轨迹预测范式，它将不确定性分配给语义概念：过去的代理行为、道路结构和社会背景。我们在现实世界的自动驾驶数据上验证了我们的方法，展示了优于最先进基线的卓越性能。我们的代码位于：https://github.com/sisl/InterpretableSelfAwarePrediction。

关键词：自动驾驶车辆、轨迹预测、分布转移

1简介

深度学习技术在多个领域取得了成功，包括自动驾驶车辆 (AV) 背景下的人类轨迹预测[1, 2]。然而，部署这些系统的一个关键挑战是它们对预测的质量缺乏自我意识。深度学习模型经常高估自己在不熟悉的情况下的置信度[3,4,5,6,7,8,9]。对于部署在人类环境中的机器人来说，这种过度自信可能会导致危险的操作和安全问题。标记现实世界中遇到的不熟悉的情况可能有助于下游自主堆栈组件，例如执行故障安全操作的路径规划器，以及工程师进行进一步的系统开发。

现实世界的系统容易受到任意和认知不确定性的影响。前者是不可约的数据不确定性，对于轨迹预测，可以表示为给定过去观察的未来轨迹的分布（例如，给定过去的直线轨迹，转向或继续直线）。任意不确定性可以在基于学习的系统训练期间明确建模，例如使用变分方法[10,11,12,13,14,15,16]。认知不确定性反映了模型不知道的事情，这可能是由于模型表示数据和数据分布变化的能力有限而产生的。神经网络通常无法正确校准这种不确定性，从而导致分布外 (OOD) 输入 [3, 4, 5, 6, 7, 8, 9] 的预测不可靠。在本文中，我们重点关注轨迹预测的认知不确定性量化。

人们对估计深度学习模型的认知不确定性越来越感兴趣[17]。大多数现有方法考虑小型基准数据集或需要 OOD 数据来进行训练 [18, 19, 20, 21, 22, 23]。最近的一些论文（例如，[24,25,26,27,28,29,30,31])已经开始探索基于学习的机器人感知和预测的认知不确定性估计。由于数据的高维度，识别轨迹预测等任务的 OOD 输入很困难。由于不可能预见路上遇到的所有可能场景，因此无法手动策划 OOD 数据集用于训练。此外，成功的认知不确定性估计技术，例如集成[32]和蒙特卡洛（MC）dropout[18]，在推理过程中需要多次前向传递，可能会阻碍真实性。时间表现。最后，大多数方法输出认知不确定性的单一值。在混乱、动态的环境中（例如城市驾驶），存在多种可能的不确定性来源，该值可能难以解释。例如，可能不清楚高认知不确定性是否源于不熟悉的轨迹操作、新的交叉口类型或由于外部干扰（例如道路建设）而导致周围主体的奇怪行为。

对轨迹预测的认知不确定性进行建模面临三个关键挑战：（1）训练期间缺乏明确的 OOD 数据，（2）推理过程中的效率要求，以及（3）计算的不确定性的可解释性。本文通过一种证据性深度学习方法解决了轨迹预测的这些挑战，该方法只需一次前向传递模型即可一次性估计认知不确定性，并且不需要 OOD 数据进行训练。我们将这种不确定性分配给可解释的低维潜在变量。证据深度学习估计二阶分布（例如狄利克雷分布）的参数，以捕获认知不确定性[19,20,33]。为了避免训练中的 OOD 数据，可以使用归一化流来约束学习的狄利克雷分布参数，方法是强制每个类别的密度整合到该类别中的训练样本数量，如后验网络 (PostNet) 架构 [34]。

Refer to caption — 图1：可解释的自我意识预测（ISAP）系统概述。 ISAP 学习分布在语义上可解释的潜在概念上的不确定性：智能体过去的行为、地图和社交背景。网络输出相应狄利克雷分布的参数 $\alpha_{\text{agent}}$ 、 $\alpha_{\text{map}}$ 和 $\alpha_{\text{sc}}$ ，这些参数是使用归一化流学习的，然后可以将这些参数组合起来形成输出狄利克雷分布， $\text{Dir}(\alpha)$ 。轨迹预测任务的任意不确定性由狄利克雷参数 $\alpha$ 的期望值建模，可用于进行轨迹预测（显示了三个最可能的预测），而它们的总和 $\alpha_{0}$ 是认知不确定性的指标。高 $\alpha_{0}$ 表示输入的证据，并对应于低认知不确定性。

在轨迹预测中，人类行为通常使用离散模式进行建模，这些模式可以代表加速、制动和转弯等高级操作[35,36,37,12,38,39]。我们应用 PostNet [34] 的思想来对具有离散模式的轨迹预测架构的认知不确定性进行建模。为了解决习得的认知不确定性的可解释性，我们提出以下语义见解。轨迹预测的高度认知不确定性可能源于不熟悉的输入行为、道路结构或社会背景。我们将学习到的认知不确定性分布在低维潜在空间中编码的这些类别上，从而提高了可处理性。因此，我们引入了一种轨迹预测范式，该范式能够自我意识到其预测置信度，并能够为下游自主堆栈组件和开发工程师提供丰富的、可解释的信息。我们将这种范式称为可解释的自我意识预测（ISAP）。

我们的主要贡献是：1）我们提出了一种证据深度学习的新颖应用，用于轨迹预测的认知不确定性量化任务。 2）我们通过将可解释性分布在可解释的低维潜在变量上，将可解释性引入不确定性估计中。认知不确定性源被分解为来自不熟悉的代理行为、道路配置或社会背景。 3) 我们在现实世界的 NuScenes 数据集 [40] 上证明了 ISAP 框架的不确定性估计性能优于最先进的 (SOTA) 方法。

2相关工作

可解释的轨迹预测。

鼓励轨迹预测架构中的可解释性的一种方法是通过离散模式[37,39,12,36,38,41]。例如，Chai 等人[37]、Mangalam 等人[42]和Hu 等人[43]通过学习分布来引入可解释性超过离散的意图目标。 Kothari 等人 [41] 在可解释的离散选择模型中学习可能性的概率分布。由于离散模式在轨迹预测文献中普遍存在，我们假设架构中存在离散模式，开发了一种认知不确定性量化方法。促进潜在空间中的可解释性的另一种常见方法是通过编码器-解码器结构。 Neumeier 等人[44]使用具有专业知识的解码器在轨迹预测模型中生成可解释的潜在空间。受这个想法的启发，我们强制通过与观察到的代理行为、道路配置和社会背景相对应的三个独立的潜在编码来学习认知不确定性。这种可解释的结构是通过使用通过自监督信号学习的解码器组件来实现的。

基于学习的感知和预测的认知不确定性。

Gawlikowski 等人[17]调查现代不确定性量化方法。在基于学习的自治系统中计算认知不确定性的一种常见方法是使用 MC dropout [18]，因为它的实现简单，并且不需要 OOD 数据进行训练。该方法用于轨迹预测[45, 46]、行人边界框预测[47]、语义分割和深度回归[48]等任务t2>，以及逆传感器模型学习[49]。然而，MC dropout 在推理过程中需要多次前向传递，并且对于分布偏移的鲁棒性不如集成[50]。此外，MC dropout 需要 dropout 架构元素，这可能并不总是理想的。集成[32]被认为是一种强大的认知不确定性估计技术，但训练和执行推理的成本可能很高，限制了它们在机器人技术中的使用。一次性证据不确定性估计方法（例如深度证据回归）最近在深度估计等感知任务中显示出了有希望的结果[24, 25]。在这项工作中，我们探索了在轨迹预测任务中使用 PostNet 证据深度学习技术[34]。 PostNet 在训练过程中不需要 OOD 数据，并且在推理过程中只需要一次前向传递即可获得模型输出和认知不确定性估计。我们感兴趣的是这种技术如何扩展到轨迹预测所需的高维数据。

3方法

问题定义。

我们考虑以下轨迹预测设置。我们假设输入表示 $x$ 由道路结构（例如，高清（HD）地图）、感兴趣的代理的过去轨迹和当前状态以及过去轨迹信息的组合组成为周边代理商。代理的状态由速度 $v$ 、加速度 $a$ 和航向变化率 $h$ 组成。轨迹预测任务的目标是预测未来 $T$ 时间步的时间范围内的 2D 位置向量 $y\in\mathbb{R}^{2\times T}$ 。我们假设轨迹预测架构具有一组带有地面实况标签 $d\in\left\{1,\ldots,C\right\}$ 的离散锚点。例如，MultiPath [37] 架构使用 k-means 将轨迹聚类到离散潜在空间中，而 CoverNet [38] 模型则构造一组可能的轨迹，其中指定的覆盖级别。

后网络（PostNet）。

为了估计轨迹预测设置中的认知不确定性，我们使用 PostNet [34] 的想法。 PostNet 是一种证据深度学习方法 [19, 20]，它使用归一化流 [51] 来学习预测概率的封闭式后验分布。我们分析了其应用于轨迹预测任务的离散锚空间的性能。 PostNet 的后验分布包含任意和认知不确定性，在训练期间不需要 OOD 数据。不确定性由狄利克雷分布（分类分布的共轭先验）表示。这种方法是一次性的，因为它需要一次网络传递来计算输入 $x^{(i)}$ 的认知分布 $q^{(i)}$ 和任意分布 $\bar{p}^{(i)}$ ，

q^{(i)}=\text{Dir}(\alpha^{(i)})\quad\text{and}\quad\bar{p}^{(i)}=\text{Cat}(\bar{\xi}^{(i)})\quad\text{with}\quad\bar{\xi}^{(i)}_{c}=\mathbb{E}_{q^{(i)}}[\xi^{(i)}]_{c}=\frac{\alpha_{c}^{(i)}}{\alpha_{0}^{(i)}},\vspace{-0.1cm}

(1)

其中 $i$ 是数据集索引， $c$ 是锚类， $\alpha^{(i)}\in\mathbb{R}_{+}^{C}$ 是Dirichlet参数， $\alpha_{0}^{(i)}=\sum_{c=1}^{C}\alpha_{c}^{(i)}$ 是总数量分配给输入的证据( $\alpha_{0}$ 越高表示认知不确定性越低）。分类分布 $p^{(i)}\leavevmode\nobreak\ =\leavevmode\nobreak\ \text{Cat}(\xi^{(i)})$ 的参数 $\xi^{(i)}\in\big{\{}[0,1]^{C}\mid\sum_{c}\xi^{(i)}_{c}=1\big{\}}$ 可以从认知分布 $\xi^{(i)}\leavevmode\nobreak\ \sim\leavevmode\nobreak\ q^{(i)}$ 中采样。根据 $\hat{d}^{(i)}=\operatorname*{arg\,max}_{c}\bar{\xi}_{c}^{(i)}$ 进行锚点预测 $\hat{d}^{(i)}$ 。狄利克雷参数 $\alpha^{(i)}$ 构造为 $\alpha^{(i)}=\beta^{\text{prior}}+\beta^{(i)}$ ，其中 $\beta^{\text{prior}}\in\mathbb{R}_{+}^{C}$ 是固定先验， $\beta^{(i)}\in\mathbb{R}_{+}^{C}$ 表示学习到的伪计数作为证据输入 $x^{(i)}$ 。在Charpentier等人[34]之后，我们对 $\beta^{\text{prior}}=1$ 使用无信息先验。在置信度较低（较小的 $\alpha$ 参数）的情况下，我们希望学习到的分布接近由 $\beta_{\text{prior}}$ 参数化的无信息先验。伪计数 $\beta^{(i)}$ 定义为，

\beta_{c}^{(i)}=N_{c}\cdot r(z^{(i)}\mid c;\phi),\vspace{-0.1cm}

(2)

其中 $z$ 是低维连续潜在空间， $\phi$ 包含网络参数， $N_{c}$ 反映锚点类 $c$ 概率密度 $r(z^{(i)}\mid c;\phi)$ 是在低维潜在空间 $z$ 上学习的，以提高算法对高维输入的易处理性和扩展性。首先，神经网络将输入 $x^{(i)}$ 编码到潜在空间 $z^{(i)}=f_{\theta}(x^{(i)})$ 中。然后，由于其表示能力，使用归一化流来学习该潜在空间 [51, 52] 上的分布。重要的是， $r(z^{(i)}\mid c;\phi)$ 是标准化密度，以鼓励 $\alpha_{0}^{(i)}$ 参数对于高密度、分布内 (ID) 区域（低认知不确定性）而言较高，对于低认知不确定性则较低。 -密度，OOD区域（高认知不确定性）。当 $r(z^{(i)}\mid c;\phi)$ 变为零时， $\alpha^{(i)}$ 参数减少到无信息的先验 $\beta^{\text{prior}}=1$ 。为了优化 PostNet，我们使用证据下界（ELBO）损失[53]，

\mathcal{L}_{\text{ELBO}}=\frac{1}{N}\sum_{i=1}^{N}-\mathbb{E}_{q^{(i)}}\left[\log p^{(i)}(d^{(i)})\right]+\text{KL}(q^{(i)}\;||\;\text{Dir}(1)).\vspace{-0.1cm}

(3)

可解释的自我意识预测（ISAP）。

PostNet 的不确定性量化方法自然地转移到具有受监督的离散潜在锚点的轨迹预测模型。然而，为了使不确定性估计在复杂环境（例如城市场景）中提供更多信息，我们将可解释性注入到潜在空间 $z$ 中，形成了所提出的ISAP方法。我们将输入 $x$ 编码为三个独立的潜在变量： $z_{\text{agent}}$ 、 $z_{\text{map}}$ 和 $z_{\text{sc}}$ ，代表智能体过去的行为、道路结构图，以及围绕感兴趣的代理的社会背景。这种分解已被证明在轨迹预测的输入级别上是有效的，支持我们对可解释结构[54]的选择。使用附带的解码器组件将这些语义概念编码到潜在空间中。解码器是自我监督的，输入 $x$ 分为代理的过去轨迹、道路结构表示和其他代理的过去轨迹。解码器权重是通过相关的重建损失来学习的。

ISAP 网络然后输出对应于三个语义概念的三个狄利克雷分布的参数。这些狄利克雷分布通过其参数的等权平均进行组合，表示三个类别的先验一致，

\alpha=(\alpha_{\text{agent}}+\alpha_{\text{map}}+\alpha_{\text{sc}})/3.\vspace{-0.1cm}

(4)

这些 $\alpha$ 参数用于构造Eq.1中的分布。根据任意分类分布 $\bar{p}^{(i)}$ ，预测轨迹是最可能的锚定轨迹。狄利克雷分布 $q^{(i)}$ 定义了预测的认知不确定性。那么完整的 ISAP 损失是：

\mathcal{L}=\mathcal{L}_{\text{ELBO}}+\lambda_{\text{agent}}\mathcal{L}_{\text{rec,agent}}+\lambda_{\text{map}}\mathcal{L}_{\text{rec,map}}+\lambda_{\text{sc}}\mathcal{L}_{\text{rec,sc}},\vspace{-0.1cm}

(5)

其中 $\lambda_{\text{agent}}$ 、 $\lambda_{\text{map}}$ 和 $\lambda_{\text{sc}}$ 是每个重建损失项的缩放系数。有关重建损失术语的更多详细信息，请参阅附录A。 Postels 等人 [55, 27] 证明，在重建能力方面对潜在空间进行正则化可以改善认知不确定性估计。这些发现进一步支持我们为认知不确定性量化任务选择可解释的架构。完整的ISAP架构如图1所示。

4实验

我们凭经验验证了 ISAP 范式的认知不确定性估计和 OOD 检测能力。所有模型均在单个 NVIDIA GeForce RTX 2080 Ti GPU 上进行训练。附录A和B中提供了更多详细信息。

数据。

我们在 NuScenes [40] 自动驾驶数据集上测试 ISAP。根据 Phan-Minh 等人 [38]< 之前在 $2\text{\,}\mathrm{Hz}$ 收集的过去数据的 $1\text{\,}\mathrm{s}$ 对未来 $6\text{\,}\mathrm{s}$ 进行预测/t3>. 输入表示 $x\in[0,1]^{500\times 500\times 3}$ 将智能体过去的轨迹、高清地图和其他智能体过去的轨迹组合成场景的鸟瞰图渲染（参见图1)。代理的状态 $[v,a,h]$ 作为每个网络分支的输入。我们考虑两个 OOD 数据分割。首先，我们根据智能体过去的轨迹分割数据。 ID 输入轨迹被选择为比 OOD 输入轨迹慢。我们使用最旧和最近的航路点之间的 $\ell_{2}$ 距离作为轨迹“速度”的启发式。我们将 ID 数据的 $\ell_{2}$ 距离设置为小于 $10\text{\,}\mathrm{m}$ 的阈值，为 OOD 数据留下更快的轨迹。我们还考虑根据地图结构进行 OOD 数据分割。 ID 数据取自新加坡（左侧驾驶），描述中不包含“环岛”或“大街”。 OOD 数据来自波士顿（右侧驾驶），描述中带有“环岛”。由于元数据指的是场景而不是当前的本地地图，因此 OOD 数据中也存在一些笔直的道路。我们验证了我们选择的 OOD 分割很难推广到轨迹预测模型，因此对于附录C中的 OOD 检测很重要。

架构细节。

对于我们的轨迹预测架构，我们采用 CoverNet [38] 模型，这是 NuScenes 预测任务的基线技术。该模型很方便，因为它将轨迹预测框定为对预定义轨迹集的分类。因此，我们可以直接将 ISAP 方法与该架构集成。在我们的实验中，我们使用大小为 $64$ 的轨迹锚集进行分类 [38]。潜在变量 $z_{\text{agent}}$ 、 $z_{\text{map}}$ 和 $z_{\text{sc}}$ 设置为四维，因为这种低维数可以带来良好的不确定性估计和归一化的计算效率流动。三个潜在变量中每一个的概率密度 $r(z^{(i)}\mid c;\phi)$ 均采用由八层组成的径向归一化流进行建模，如 Charpentier 等人 [34] 所做的那样。地图和社交上下文解码器将维度 $4,096$ 的 $z_{map}$ 和 $z_{sc}$ 上游一层作为输入特征，以实现更高的表示能力。我们修改 ELBO 损失以在重建项中使用 CoverNet 的常数晶格损失。分类标签是与地面真实轨迹具有最小 $\ell_{2}$ 距离的轨迹锚点类。

基线。

我们考虑我们的方法的三个基线：CoverNet [38]、Post-CoverNet 和集成[32]。我们以 CoverNet 为基准进行轨迹预测和校准性能基准测试，无需进行任何修改。 Post-CoverNet 是对 ISAP 方法的消融，没有可解释性元素，而是具有单个不可解释的潜在变量 $z$ 。最后，集成对于估计神经网络模型的认知不确定性来说是 SOTA。 Gustafsson 等人[26]表明，集成[32]始终优于 MC dropout。因此，我们以集成中的 $N=5$ 和 $N=10$ 模型的两种方法中性能更高的为基准。

指标。

我们采用各种指标来研究 ISAP (1) 估计认知不确定性和 (2) 保持轨迹预测性能的效果。为了衡量轨迹预测性能，我们使用标准轨迹预测指标[38]：最可能的 $k$ 模式上的最小平均位移误差（minADE_k)和最终位移误差（FDE）。越低越好。

然后我们评估不确定性估计性能。遵循Charpentier等人[34]，我们使用接收器工作特性下的面积（AUROC）和平均精度（APR）来计算预测中的置信度校准（越高越好）。我们希望网络为正确的预测输出高置信度（标记为 1），为错误的预测输出低置信度（标记为 0）。计算任意置信度的分数为 $\max_{c}\bar{\xi}_{c}^{(i)}$ 。对于认知置信度，Post-CoverNet 和 ISAP 的分数为 $\max_{c}\alpha_{c}$ ，集成的分数为 $1/Var_{c}$ ，其中 $Var_{c}$ 是整个集成中预测类别概率的经验方差。预期校准误差 (ECE) 将输出分布与模型精度进行比较。 Brier 分数是另一个校准指标： $\frac{1}{N}\sum_{i=1}^{N}\|\bar{\xi}^{(i)}-d^{(i)}\|$ ，其中 $d^{(i)}$ 是 one-hot 标签。这些指标越低越好。

为了评估 OOD 检测性能，我们使用 AUROC 和 APR，其中 OOD 为标签 0，ID 数据为 1（越高越好）。对于基于任意不确定性的 OOD 检测，分数为 $\max_{c}\bar{\xi}_{c}^{(i)}$ 。当基于认知不确定性时，Post-CoverNet 和 ISAP 的分数为 $\alpha_{0}^{(i)}$ ，集成的分数为 $1/Var_{c}$ 。为了给 Post-CoverNet 和 ISAP 提供进一步的直觉，我们还报告了 ID 和 OOD 数据 $\bar{\alpha}_{0,OOD}/\bar{\alpha}_{0,ID}$ 的 Dirichlet 参数的平均和的比率（越低越好）。最后，我们在附录D中将熵视为OOD检测指标。

表格1： ID 测试数据的轨迹预测指标（越低越好）。最佳性能以粗体突出显示。我们的方法的性能与集成和原始 CoverNet 模型相当。

	CoverNet [38]	Ensemble [32]	Ensemble [32]	Post-CoverNet	ISAP
		( $N=5$ )	( $N=10$ )	(Ours)	(Ours)
	Input Past Trajectory Experiment
minADE₁	4.327	4.241	4.246	4.529	4.711
minADE₅	1.885	1.867	1.859	1.951	2.004
minADE₁₀	1.545	1.529	1.539	1.581	1.599
minADE₁₅	1.413	1.421	1.423	1.440	1.474
FDE	9.474	9.270	9.293	10.009	10.177
	Map-Based Experiment
minADE₁	4.732	4.227	4.227	4.726	4.822
minADE₅	2.115	2.053	2.019	2.069	2.149
minADE₁₀	1.731	1.686	1.689	1.719	1.737
minADE₁₅	1.578	1.556	1.555	1.583	1.600
FDE	10.590	9.344	9.318	10.531	10.503

5结果

定量结果。

ID 测试数据的轨迹预测性能在表 1 中报告。正如所预料的，性能最好的方法是集成基线。集成往往比单个网络对应物更强大，在本例中以 CoverNet [38] 为代表。有趣的是，对于输入过去的轨迹实验，较小的集成( $N=5$ )稍微优于较大的集成( $N\leavevmode\nobreak\ =\leavevmode\nobreak\ 10$ )，这表明模型之间较高的变异性可能会导致性能小幅下降。由于 Post-CoverNet 和 ISAP 在轨迹预测目标中添加了竞争项，轨迹预测性能因此受到轻微影响也就不足为奇了。然而，令人鼓舞的是，性能下降幅度很小。

我们工作的重点是准确估计轨迹预测模型的认知不确定性。不确定性量化结果如表2所示。 ISAP 模型在输入过去轨迹实验的几乎所有指标上都优于基线方法。我们做出了两个有趣的观察。首先，ISAP 在认知不确定性估计方面优于 Post-CoverNet。看来编码到 ISAP 内潜在空间的可解释性有助于其性能，特别是在 OOD 数据检测中。我们假设将不确定性分布在更简单、可解释的潜在变量上使得不确定性估计任务变得更容易。第二个观察结果是 ISAP 在 OOD 检测中优于集成。集成通常是 OOD 检测的规范方法；然而，ISAP 和 Post-CoverNet 的性能远远优于较小的集成。更大的整体接近 Post-CoverNet 性能，但 ISAP 仍然表现出色。这一结果支持了 Charpentier 等人 [34] 针对较小分类任务的 PostNet 架构的类似发现。

基于地图的实验的结果很大程度上遵循输入过去轨迹实验中观察到的趋势。 ISAP 在 OOD 检测方面优于集成。一般来说，我们没有发现置信度指标或 Brier 和 ECE 分数能够反映 OOD 检测性能。基于地图的实验总体上比输入过去的轨迹实验更具挑战性，因为用于区分地图特征的过滤器描述的是场景而不是局部地图，导致 OOD 数据中出现笔直的道路。因此，ID 和 OOD 的划分并不像输入过去的轨迹实验那样清晰。尽管如此，我们观察到这两个实验的方法的性能趋势相似。 ISAP 在 OOD 检测中始终优于基线，同时在轨迹预测中保持高性能。

表2：不确定性估计指标。如果有两个数字，则它们是ID（OOD）测试数据。否则，数据将在部分4中详细说明。最佳表现以粗体显示。我们的方法在大多数指标上都表现出色。

	CoverNet [38]	Ensemble [32]	Ensemble [32]	Post-CoverNet	ISAP
		( $N=5$ )	( $N=10$ )	(Ours)	(Ours)
	Input Past Trajectory Experiment
Alea. Conf. (AUROC) $\bm{\uparrow}$	0.638 (0.430)	0.638 (0.399)	0.636 (0.419)	0.630 (0.721)	0.652 (0.733)
Epi. Conf. (AUROC) $\bm{\uparrow}$	–	0.455 (0.648)	0.434 (0.991)	0.573 (0.789)	0.621 (0.745)
Alea. Conf. (APR) $\bm{\uparrow}$	0.525 (0.171)	0.551 (0.180)	0.542 (0.179)	0.465 (0.262)	0.486 (0.281)
Epi. Conf. (APR) $\bm{\uparrow}$	–	0.089 (0.001)	0.086 (0.034)	0.408 (0.293)	0.451 (0.316)
ECE $\bm{\downarrow}$	0.021 (0.339)	0.045 (0.317)	0.056 (0.280)	0.017 (0.198)	0.048 (0.053)
Brier Score $\bm{\downarrow}$	0.837 (1.011)	0.835 (1.007)	0.840 (1.000)	0.857 (0.963)	0.850 (0.960)
Alea. OOD (APR) $\bm{\uparrow}$	0.542	0.530	0.538	0.833	0.930
Epi. OOD (APR) $\bm{\uparrow}$	–	0.810	0.961	0.960	0.976
Alea. OOD (AUROC) $\bm{\uparrow}$	0.241	0.218	0.240	0.652	0.871
Epi. OOD (AUROC) $\bm{\uparrow}$	–	0.693	0.913	0.919	0.955
$\bm{\bar{\alpha}_{0,OOD}/\bar{\alpha}_{0,ID}}\bm{\downarrow}$	–	–	–	0.171	0.145
	Map-Based Experiment
Alea. Conf. (AUROC) $\bm{\uparrow}$	0.594 (0.415)	0.629 (0.636)	0.631 (0.616)	0.610 (0.593)	0.582 (0.630)
Epi. Conf. (AUROC) $\bm{\uparrow}$	–	0.582 (0.618)	0.635 (0.681)	0.610 (0.647)	0.575 (0.707)
Alea. Conf. (APR) $\bm{\uparrow}$	0.399 (0.126)	0.531 (0.225)	0.525 (0.292)	0.452 (0.222)	0.428 (0.187)
Epi. Conf. (APR) $\bm{\uparrow}$	–	0.103 (0.043)	0.129 (0.164)	0.463 (0.284)	0.425 (0.281)
ECE $\bm{\downarrow}$	0.056 (0.200)	0.080 (0.118)	0.092 (0.087)	0.046 (0.132)	0.113 (0.102)
Brier Score $\bm{\downarrow}$	0.873 (0.985)	0.845 (0.964)	0.852 (0.949)	0.871 (0.973)	0.868 (0.968)
Alea. OOD (APR) $\bm{\uparrow}$	0.906	0.946	0.941	0.913	0.956
Epi. OOD (APR) $\bm{\uparrow}$	–	0.876	0.875	0.941	0.968
Alea. OOD (AUROC) $\bm{\uparrow}$	0.690	0.786	0.777	0.724	0.806
Epi. OOD (AUROC) $\bm{\uparrow}$	–	0.552	0.553	0.756	0.838
$\bm{\bar{\alpha}_{0,OOD}/\bar{\alpha}_{0,ID}}\bm{\downarrow}$	–	–	–	0.502	0.245

我们研究了学习的伪计数 $\alpha_{0}$ 如何反映图2中输入过去轨迹实验的真实数据分布t1>. 我们将真实数据分布绘制为代理过去轨迹中最旧和最近路径点之间 $\ell_{2}$ 距离的直方图。我们区分 ID（绿色）和 OOD（橙色）示例。数据在 $0\text{\,}\mathrm{m}$ （停止）和 $5\text{\,}\mathrm{m}$ ( $18\text{\,}\mathrm{k}\mathrm{m}\mathrm{/}\mathrm{h}$ ) 附近达到峰值，然后 OOD 数据逐渐下降。学习到的 $\alpha_{0,\text{agent}}$ 参数反映了这些趋势。由于地图和社交上下文潜在变量的 ID 和 OOD 差异不太明显，因此两种数据类型的 $\alpha_{0,\text{map}}$ 和 $\alpha_{0,\text{sc}}$ 趋势更加平坦，尽管 $\alpha_{0,\text{map}}$ 仍然显示出明显的区别。我们假设道路配置（例如，多车道高速公路与环岛）与智能体速度相关，而社会环境可能并不总是反映智能体的速度。

定性结果。

图 3 展示了 ISAP 在 ID 和 OOD 示例上的定性结果。该图显示了网络的输入、解码的潜在变量及其关联的 $\alpha_{0}$ 值。在输入过去轨迹实验中，ID 示例的输入轨迹比 OOD 示例更慢（更短）。 ISAP 网络在 Dirichlet 参数中的 ID 和 OOD 示例之间产生了明显的区别，反映了代理过去的轨迹，正如预期的那样。 ID $\alpha_{0,\text{agent}}$ 值比 OOD 的值高得多（不确定性较低）。 OOD $\alpha_{0,\text{agent}}$ 值几乎达到完全不确定性，因为超过 64 个可能的锚点的统一先验将产生 $\alpha_{0}=64$ 。 OOD 输入的 $\alpha_{0,\text{map}}$ 和 $\alpha_{0,\text{sc}}$ 值也低于 ID 输入的值。我们假设，与 OOD 示例中类似高速公路的大型四车道道路相比，ID 数据中感兴趣的智能体以较慢的速度行驶时更有可能出现交叉路口。图 3中令人惊讶的观察结果是OOD $\alpha_{0,\text{sc}}$ 值相当高，表明认知不确定性较低。在 ID 和 OOD 示例中，感兴趣的代理正在路上行驶，路上有许多汽车。这种情况对于慢速训练数据来说很常见，表明了 ID 特征。因此，我们的 ISAP 范式提供了对认知不确定性的可解释来源的洞察。

在基于地图的实验中，感兴趣的 ID 智能体沿着一条笔直的双车道道路以中等速度行驶，前方有汽车。根据我们的预期和学习到的 $\alpha_{0}$ 伪计数，这种情况很可能发生。在 OOD 数据输入中，地图显示环形交叉口，该环形交叉口不应出现在 ID 数据中。正如预期的那样，OOD $\alpha_{0,\text{map}}$ 值明显低于 ID 示例的值，因为网络在训练期间没有看到此交叉点类型。

6 结论

在本文中，我们提出了一种新的轨迹预测范式，称为可解释的自我意识预测（ISAP）。 ISAP 学习轨迹预测架构中一组离散的监督锚点的任意和认知不确定性。这些不确定性是通过使用证据深度学习的想法一次性估计的。我们通过将不确定性细分为语义概念：过去的代理行为、道路结构图和社会背景，将可解释性引入认知不确定性估计中。我们的方法保持了与未修改的轨迹预测架构相当的轨迹预测性能，并且在不确定性估计方面优于集成等现有技术，同时在推理过程中仅需要一次网络传递。

局限性。

尽管我们表明 ISAP 框架中的标准化流程对于不确定性估计是有效的，但它们可能很脆弱且速度缓慢。他们还努力扩展到大的潜在空间，限制了潜在空间的表示能力。此外，根据设计，我们在自动驾驶汽车背景下的 ISAP 轨迹预测框架上施加了归纳偏差。对于其他应用，例如辅助机器人，可能需要调整可解释的结构（例如，包括任务级概念，例如烹饪或清洁）。最后，尽管随着认知不确定性估计的增加，轨迹预测指标的下降很小，但应谨慎考虑如何在未来的工作中缩小这一差距。

未来的工作。

未来工作的另一个有希望的途径是将我们的 ISAP 范式扩展到以地图为中心的环境预测[56,57,58]。在以地图为中心的预测中，输入和输出是占用网格序列，其维度比传统的以对象为中心的轨迹预测中的输入和输出更高。以地图为中心的表示对于部分遮挡具有鲁棒性，可以处理场景中任意数量的代理，并且不需要大量的预处理。因此，将认知不确定性估计扩展到这些设置是一个令人兴奋的开放研究问题。

致谢

这项工作得到了 Waymo 的资助。我们感谢 Ben Sapp 和 Dragomir Anguelov 在整个项目中进行了富有洞察力的讨论。我们感谢 Spencer M. Richards 和 Ransalu Senanayake 提供的宝贵反馈。

参考

Rudenko et al. [2020] A. Rudenko, L. Palmieri, M. Herman, K. M. Kitani, D. M. Gavrila, and K. O. Arras. Human motion trajectory prediction: A survey. International Journal of Robotics Research, 39(8):895–935, 2020.
Leon and Gavrilescu [2021] F. Leon and M. Gavrilescu. A review of tracking and trajectory prediction methods for autonomous driving. Mathematics, 9(6):660, 2021.
Sünderhauf et al. [2018] N. Sünderhauf, O. Brock, W. Scheirer, R. Hadsell, D. Fox, J. Leitner, B. Upcroft, P. Abbeel, W. Burgard, M. Milford, et al. The limits and potentials of deep learning for robotics. International Journal of Robotics Research, 37(4-5):405–420, 2018.
Hendrycks and Gimpel [2017] D. Hendrycks and K. Gimpel. A baseline for detecting misclassified and out-of-distribution examples in neural networks. International Conference on Learning Representations (ICLR), 2017.
Nguyen et al. [2015] A. Nguyen, J. Yosinski, and J. Clune. Deep neural networks are easily fooled: High confidence predictions for unrecognizable images. In Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 427–436. IEEE, 2015.
Nguyen and O’Connor [2015] K. Nguyen and B. O’Connor. Posterior calibration and exploratory analysis for natural language processing models. In Conference on Empirical Methods in Natural Language Processing (EMNLP), 2015.
Provost Foster et al. [1998] J. Provost Foster, F. Tom, and K. Ron. The case against accuracy estimation for comparing induction algorithms. In International Conference on Machine Learning (ICML), pages 445–453, 1998.
Yu et al. [2011] D. Yu, J. Li, and L. Deng. Calibration of confidence measures in speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 19(8):2461–2473, 2011.
Nitsch et al. [2021] J. Nitsch, M. Itkina, R. Senanayake, J. Nieto, M. Schmidt, R. Siegwart, M. J. Kochenderfer, and C. Cadena. Out of distribution detection for automotive perception. In International Conference on Intelligent Transportation Systems (ITSC). IEEE, 2021.
Walker et al. [2016] J. Walker, C. Doersch, A. Gupta, and M. Hebert. An uncertain future: Forecasting from static images using variational autoencoders. In European Conference on Computer Vision (ECCV), pages 835–851. Springer, 2016.
Babaeizadeh et al. [2018] M. Babaeizadeh, C. Finn, D. Erhan, R. H. Campbell, and S. Levine. Stochastic variational video prediction. In International Conference on Learning Representations (ICLR), 2018.
Salzmann et al. [2020] T. Salzmann, B. Ivanovic, P. Chakravarty, and M. Pavone. Trajectron++: Dynamically-feasible trajectory forecasting with heterogeneous data. In European Conference on Computer Vision (ECCV), 2020.
Itkina et al. [2020] M. Itkina, B. Ivanovic, R. Senanayake, M. J. Kochenderfer, and M. Pavone. Evidential sparsification of multimodal latent spaces in conditional variational autoencoders. In Advances in Neural Information Processing Systems (NeurIPS), volume 33, 2020.
Chen et al. [2021] P. Chen, M. Itkina, R. Senanayake, and M. J. Kochenderfer. Evidential softmax for sparse multimodal distributions in deep generative models. In Advances in Neural Information Processing Systems (NeurIPS), volume 34, 2021.
Cheng et al. [2021] H. Cheng, W. Liao, M. Y. Yang, B. Rosenhahn, and M. Sester. AMENet: Attentive maps encoder network for trajectory prediction. ISPRS Journal of Photogrammetry and Remote Sensing, 172:253–266, 2021.
Itkina et al. [2022] M. Itkina, Y.-J. Mun, K. Driggs-Campbell, and M. J. Kochenderfer. Multi-agent variational occlusion inference using people as sensors. In International Conference on Robotics and Automation (ICRA). IEEE, 2022.
Gawlikowski et al. [2021] J. Gawlikowski, C. R. N. Tassi, M. Ali, J. Lee, M. Humt, J. Feng, A. Kruspe, R. Triebel, P. Jung, R. Roscher, et al. A survey of uncertainty in deep neural networks. arXiv, 2021.
Gal and Ghahramani [2016] Y. Gal and Z. Ghahramani. Dropout as a Bayesian approximation: Representing model uncertainty in deep learning. In International Conference on Machine Learning (ICML), pages 1050–1059, 2016.
Sensoy et al. [2018] M. Sensoy, L. Kaplan, and M. Kandemir. Evidential deep learning to quantify classification uncertainty. In Advances in Neural Information Processing Systems (NeurIPS), pages 3179–3189, 2018.
Malinin and Gales [2018] A. Malinin and M. Gales. Predictive uncertainty estimation via prior networks. In Advances in Neural Information Processing Systems (NeurIPS), pages 7047–7058, 2018.
Yu and Aizawa [2019] Q. Yu and K. Aizawa. Unsupervised out-of-distribution detection by maximum classifier discrepancy. In International Conference on Computer Vision (ICCV), pages 9518–9526. IEEE, 2019.
Ren et al. [2019] J. Ren, P. J. Liu, E. Fertig, J. Snoek, R. Poplin, M. Depristo, J. Dillon, and B. Lakshminarayanan. Likelihood ratios for out-of-distribution detection. In Advances in Neural Information Processing Systems (NeurIPS), volume 32, pages 14707–14718, 2019.
Vyas et al. [2018] A. Vyas, N. Jammalamadaka, X. Zhu, D. Das, B. Kaul, and T. L. Willke. Out-of-distribution detection using an ensemble of self supervised leave-out classifiers. In European Conference on Computer Vision (ECCV), pages 550–564, 2018.
Amini et al. [2020] A. Amini, W. Schwarting, A. Soleimany, and D. Rus. Deep evidential regression. In Advances in Neural Information Processing Systems (NeurIPS), 2020.
Malinin et al. [2020] A. Malinin, S. Chervontsev, I. Provilkov, and M. Gales. Regression prior networks. arXiv, 2020.
Gustafsson et al. [2020] F. K. Gustafsson, M. Danelljan, and T. B. Schon. Evaluating scalable Bayesian deep learning methods for robust computer vision. In IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 318–319, 2020.
Postels et al. [2021] J. Postels, M. Segu, T. Sun, L. Van Gool, F. Yu, and F. Tombari. On the practicality of deterministic epistemic uncertainty. arXiv, 2021.
McAllister et al. [2019] R. McAllister, G. Kahn, J. Clune, and S. Levine. Robustness to out-of-distribution inputs via task-aware generative uncertainty. In International Conference on Robotics and Automation (ICRA), pages 2083–2089. IEEE, 2019.
Filos et al. [2020] A. Filos, P. Tigkas, R. McAllister, N. Rhinehart, S. Levine, and Y. Gal. Can autonomous vehicles identify, recover from, and adapt to distribution shifts? In International Conference on Machine Learning (ICML), pages 3145–3153. PMLR, 2020.
Farid et al. [2021] A. Farid, S. Veer, and A. Majumdar. Task-driven out-of-distribution detection with statistical guarantees for robot learning. In Conference on Robot Learning (CoRL), pages 970–980. PMLR, 2021.
Lee et al. [2021] J. Lee, J. Feng, M. Humt, M. G. Müller, and R. Triebel. Trust your robots! Predictive uncertainty estimation of neural networks with sparse Gaussian processes. In Conference on Robot Learning (CoRL), pages 1168–1179. PMLR, 2021.
Lakshminarayanan et al. [2017] B. Lakshminarayanan, A. Pritzel, and C. Blundell. Simple and scalable predictive uncertainty estimation using deep ensembles. In Advances in Neural Information Processing Systems (NeurIPS), volume 30, 2017.
Sensoy et al. [2020] M. Sensoy, L. Kaplan, F. Cerutti, and M. Saleki. Uncertainty-aware deep classifiers using generative models. In Conference on Artificial Intelligence. AAAI, 2020.
Charpentier et al. [2020] B. Charpentier, D. Zügner, and S. Günnemann. Posterior network: Uncertainty estimation without OOD samples via density-based pseudo-counts. In Advances in Neural Information Processing Systems (NeurIPS), volume 33, pages 1356–1367, 2020.
Schmerling et al. [2018] E. Schmerling, K. Leung, W. Vollprecht, and M. Pavone. Multimodal probabilistic model-based planning for human-robot interaction. In International Conference on Robotics and Automation (ICRA), pages 1–9. IEEE, 2018.
Ivanovic and Pavone [2019] B. Ivanovic and M. Pavone. The Trajectron: Probabilistic multi-agent trajectory modeling with dynamic spatiotemporal graphs. In International Conference on Computer Vision (ICCV). IEEE, 2019.
Chai et al. [2019] Y. Chai, B. Sapp, M. Bansal, and D. Anguelov. MultiPath: Multiple probabilistic anchor trajectory hypotheses for behavior prediction. In Conference on Robot Learning (CoRL), pages 86–99. PMLR, 2019.
Phan-Minh et al. [2020] T. Phan-Minh, E. C. Grigore, F. A. Boulton, O. Beijbom, and E. M. Wolff. CoverNet: Multimodal behavior prediction using trajectory sets. In Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 14074–14083. IEEE, 2020.
Zhao et al. [2020] H. Zhao, J. Gao, T. Lan, C. Sun, B. Sapp, B. Varadarajan, Y. Shen, Y. Shen, Y. Chai, C. Schmid, et al. TNT: Target-driven trajectory prediction. In Conference on Robot Learning (CoRL). PMLR, 2020.
Caesar et al. [2020] H. Caesar, V. Bankiti, A. H. Lang, S. Vora, V. E. Liong, Q. Xu, A. Krishnan, Y. Pan, G. Baldan, and O. Beijbom. NuScenes: A multimodal dataset for autonomous driving. In Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 11621–11631. IEEE, 2020.
Kothari et al. [2021] P. Kothari, B. Sifringer, and A. Alahi. Interpretable social anchors for human trajectory forecasting in crowds. In Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 15556–15566. IEEE, 2021.
Mangalam et al. [2021] K. Mangalam, Y. An, H. Girase, and J. Malik. From goals, waypoints & paths to long term human trajectory forecasting. In International Conference on Computer Vision (ICCV), pages 15233–15242. IEEE, 2021.
Hu et al. [2019] Y. Hu, W. Zhan, L. Sun, and M. Tomizuka. Multi-modal probabilistic prediction of interactive behavior via an interpretable model. In Intelligent Vehicles Symposium (IV), pages 557–563. IEEE, 2019.
Neumeier et al. [2021] M. Neumeier, M. Betsch, A. Tollkühn, and T. Berberich. Variational autoencoder-based vehicle trajectory prediction with an interpretable latent space. In International Conference on Intelligent Transportation Systems (ITSC), pages 820–827. IEEE, 2021.
Capobianco et al. [2021] S. Capobianco, N. Forti, L. M. Millefiori, P. Braca, and P. Willett. Uncertainty-aware recurrent encoder-decoder networks for vessel trajectory prediction. In International Conference on Information Fusion (FUSION), pages 1–5. IEEE, 2021.
Dijt and Mettes [2020] P. Dijt and P. Mettes. Trajectory prediction network for future anticipation of ships. In International Conference on Multimedia Retrieval (ICMR), pages 73–81. ACM, 2020.
Bhattacharyya et al. [2018] A. Bhattacharyya, M. Fritz, and B. Schiele. Long-term on-board prediction of people in traffic scenes under uncertainty. In Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pages 4194–4202. IEEE, 2018.
Kendall and Gal [2017] A. Kendall and Y. Gal. What uncertainties do we need in Bayesian deep learning for computer vision? In Advances in Neural Information Processing Systems (NeurIPS), volume 30, pages 5574–5584, 2017.
Bauer et al. [2019] D. Bauer, L. Kuhnert, and L. Eckstein. Deep, spatially coherent inverse sensor models with uncertainty incorporation using the evidential framework. In Intelligent Vehicles Symposium (IV), pages 2490–2495. IEEE, 2019.
Ovadia et al. [2019] Y. Ovadia, E. Fertig, J. Ren, Z. Nado, D. Sculley, S. Nowozin, J. Dillon, B. Lakshminarayanan, and J. Snoek. Can you trust your model’s uncertainty? Evaluating predictive uncertainty under dataset shift. In Advances in Neural Information Processing Systems (NeurIPS), volume 32, pages 13991–14002, 2019.
Rezende and Mohamed [2015] D. Rezende and S. Mohamed. Variational inference with normalizing flows. In International Conference on Machine Learning (ICML), pages 1530–1538. PMLR, 2015.
Kingma et al. [2016] D. P. Kingma, T. Salimans, R. Jozefowicz, X. Chen, I. Sutskever, and M. Welling. Improved variational inference with inverse autoregressive flow. Advances in Neural Information Processing Systems (NeurIPS), 29, 2016.
Kingma and Welling [2014] D. P. Kingma and M. Welling. Auto-encoding variational Bayes. In International Conference on Learning Representations (ICLR), 2014.
de Brito et al. [2020] B. F. de Brito, H. Zhu, W. Pan, and J. Alonso-Mora. Social-VRNN: One-shot multi-modal trajectory prediction for interacting pedestrians. In Conference on Robot Learning (CoRL), pages 862–872. PMLR, 2020.
Postels et al. [2020] J. Postels, H. Blum, Y. Strümpler, C. Cadena, R. Siegwart, L. Van Gool, and F. Tombari. The hidden uncertainty in a neural networks activations. arXiv, 2020.
Itkina et al. [2019] M. Itkina, K. Driggs-Campbell, and M. J. Kochenderfer. Dynamic environment prediction in urban scenes using recurrent representation learning. In Intelligent Transportation Systems Conference (ITSC), pages 2052–2059. IEEE, 2019.
Toyungyernsub et al. [2021] M. Toyungyernsub, M. Itkina, R. Senanayake, and M. J. Kochenderfer. Double-prong occupancy ConvLSTM: Spatiotemporal prediction in urban environments. In International Conference on Robotics and Automation (ICRA). IEEE, 2021.
Lange et al. [2021] B. Lange, M. Itkina, and M. J. Kochenderfer. Attention augmented ConvLSTM for environment prediction. In International Conference on Intelligent Robots and Systems (IROS). IEEE, 2021.
Kingma and Ba [2015] D. P. Kingma and J. Ba. Adam: A method for stochastic optimization. In International Conference on Learning Representations (ICLR), 2015.
van den Oord et al. [2017] A. van den Oord, O. Vinyals, and K. Kavukcuoglu. Neural discrete representation learning. In Advances in Neural Information Processing Systems (NeurIPS), pages 6306–6315, 2017.

附录 A输入过去的轨迹实验：其他实验详细信息

数据。

我们使用与Phan-Minh等人[38]相同的数据和输入表示，但我们过滤掉过去轨迹信息少于 $1\text{\,}\mathrm{s}$ 的任何数据，以实现对代理人过去的轨迹。输入过去的轨迹 OOD 以启发式距离的阈值 $10\text{\,}\mathrm{m}$ 进行分割，允许足够的 ID 训练 (25,669)、验证 (7,344) 和测试 (7,270) 示例，同时仍然具有合理数量的 OOD示例（验证：2,521，测试：3,267）。

架构和训练细节。

对于 CoverNet、ensemble 和 Post-CoverNet 基线模型，我们使用 ResNet-50 主干来提取特征，遵循 Phan-Minh 等人 [38] 使用的程序。对于 ISAP 模型，为了补偿与可解释架构相关的额外计算，我们使用 ResNet-18 主干来提取特征。主干特征被输入到基线模型的两个线性层中，而在 ISAP 中，有三个线性层块，每个语义概念一个块。我们发现损失在训练中效果良好的系数： $\lambda_{\text{agent}}=1$ 、 $\lambda_{\text{map}}=1$ 和 $\lambda_{\text{sc}}=10$ 。社交上下文解码的系数高于其他系数，因为这种表示在空间上稀疏，否则解码会崩溃到预测场景中没有其他代理的稳定局部最小值。我们使用 Adam [59] 优化器对模型进行 25 个周期的训练，学习率为 $0.001$ ，批量大小为 16，权重衰减为 $5\times 10^{-4}$ 。我们注意到，我们训练了 25 个时期的 ISAP 模型，没有提前停止，因为不同的损失分量具有不同的收敛速度。所有基线均根据与 ISAP 相同的训练设置进行训练，但我们根据验证损失保存最佳模型。

在 Post-CoverNet 中，我们为 64 个锚点中的每一个学习了八层的径向归一化流[51]。根据 Charpentier 等人 [34] 的建议，我们在标准化流程之前放置了一个批量标准化层。归一化流学习四维潜在空间上的密度。对于 ISAP，我们为每个语义概念学习一组 64 个规范化流，总共有 $64\times 3=192$ 个规范化流。根据经验，将总确定性预算设置为 $\sum_{c}N_{c}=e^{6}$ 效果很好。

按照 Phan-Minh 等人 [38] 概述的过程，CoverNet 和集成模型使用修改后的交叉熵损失（称为常数晶格损失）来执行分类任务。地面真值标签是根据最小平均逐点欧几里得距离，锚点集中的轨迹最接近真实未来轨迹的锚点。对于 Post-CoverNet，我们使用 Eq. 3 中定义的 ELBO 损失。该损失对应于具有无信息狄利克雷先验[34]的贝叶斯损失。对于 ISAP，解码器的重建损失被添加到 ELBO 损失中。我们发现按 $10^{-5}$ 缩放 KL 散度项在经验上效果很好。

所有重建损失都是误差平方和。由于与输入 $x$ 的大小相比，代理过去的行为信息是低维的，因此我们做出设计决策来解码该潜在变量的单个向量。代理解码器输出包括过去 $2\text{\,}\mathrm{s}$ 感兴趣的代理的轨迹以及代理的速度、加速度和航向变化率。解码器由两个线性层组成。对于地图和社交上下文潜在变量，我们将它们解码为输入 $x$ 中空间表示的相应子组件（参见图 1)。空间表示中的每个像素预计位于三个 RGB 通道的 $[0,1]$ 中。我们不是从四维的潜在编码 $z$ 进行解码，而是从维度 $4,096$ 的上游特征层解码地图和社交上下文，以增加潜在编码的表示能力空间。这些解码器由受 VQ-VAE 模型 [60] 启发的卷积组件组成。

运行。

对于 CoverNet，所考虑的模型平均运行时间为： $4.6\text{\,}\mathrm{Hz}$ 、 $0.920\text{\,}\mathrm{Hz}$ 、 $0.460\text{\,}\mathrm{Hz}$ 、 $1.789\text{\,}\mathrm{Hz}$ 和 $0.797\text{\,}\mathrm{Hz}$ 、小集成 ( $N=5$ )、大集成 ( $N=10$ )、Post-CoverNet 和 ISAP。因此，我们的 ISAP 模型比更大的集成模型更有效，同时实现了更好的不确定性估计性能。 Post-CoverNet 模型提供了一种一次性认知不确定性估计方法，该方法比两种集成都更有效。

附录 B基于地图的实验：其他实验细节

数据。

为了进一步测试我们的方法，我们进行了基于地图的实验。我们根据高清地图信息对 NuScenes [40] 数据集进行子采样。从Phan-Minh等人[38]使用的数据开始，我们再次过滤掉过去智能体轨迹信息少于 $1\text{\,}\mathrm{s}$ 的任何数据，以实现对智能体过去轨迹的解码弹道。然后，我们根据 NuScenes [40] 提供的与高清地图相关的元数据，将数据拆分为 ID 和 OOD 示例。 ID 示例选择来自新加坡荷兰村和皇后镇社区（左侧驾驶），且描述中不包含“环岛”或“大街”。 OOD 数据取自波士顿（右侧驾驶），并在描述中包含“环岛”。我们注意到，虽然“环岛”可能出现在元数据中，但这指的是场景，而不一定是感兴趣的代理周围的当前本地地图。因此，尽管大多数示例都包含环岛，但 OOD 数据中也有一些没有环岛的直路。同样，尽管从 ID 数据中过滤掉了“大街道”场景，但 ID 数据集中仍然可能存在一些较大的道路。这种划分允许足够的训练 (8,110)、验证 (318) 和测试 (2,186) 个 ID 示例，同时仍然具有合理数量的 OOD 示例（验证：80，测试：364）。

训练详情。

我们主要遵循附录A中描述的架构和训练细节。我们发现系数 1 可以很好地处理所有重建损失。在本实验中，重建损失需要更长的时间才能收敛，因此我们训练了 50 个 epoch 的 ISAP 模型，并将验证性能最佳的模型保存在 $\mathcal{L}_{\text{ELBO}}$ 上。

附录COOD拆分验证

为了支持我们选择的 OOD 数据拆分（输入过去的轨迹和基于地图的数据）的有效性，我们使用表 3 中的轨迹预测指标对 ID 和 OOD 测试集上的 CoverNet [38] 基线进行了评估。从 ID 数据到 OOD 数据时，输入过去轨迹和基于地图的实验的 CoverNet 性能均显着下降。因此，检测这些 OOD 示例对于安全关键型应用非常重要。

表3： CoverNet [38] 基线对输入过去轨迹和基于地图的 OOD 数据分割的 ID (OOD) 测试集数据的轨迹预测结果。越低越好。我们发现这两个实验从 ID 数据到 OOD 数据的性能均大幅下降，因此此设置中的 OOD 检测非常重要。

Experiment	minADE₁	FDE
Input Past Trajectory	4.327 (7.130)	9.474 (13.632)
Map-Based	4.732 (6.111)	10.590 (13.464)

附录 D 熵可视化结果

除了部分5中提供的分析之外，我们还包括输入过去轨迹和基于地图的ID实验的熵直方图的可视化以及图4中的OOD测试数据。我们将 ISAP 方法与更大的集成 ( $N=10$ ) 进行比较。为了计算熵，我们使用集成的输出分类分布以及分类和狄利克雷分布，分别捕获 ISAP 的任意和认知不确定性。在这两个实验中，ISAP 在熵方面比整体提供了 ID 和 OOD 数据（直方图中的各个峰值）更清晰的区别，支持了我们在部分 5<中的发现/t2>。 OOD 数据的 ISAP 熵峰比整体产生的熵峰更尖锐，熵值更高。

图4： ISAP（我们的）和整体 (

N=10

) 的熵直方图。第一行显示输入过去轨迹实验的结果，而第二行显示基于地图的实验的结果。所有数据均来自 ID 和 OOD 测试集。 ISAP 在熵方面提供了 ID 和 OOD 数据之间最清晰的区别（单个峰值）。

用于稳健轨迹预测的可解释的自我意识神经网络

摘要

1简介