端到端的自主驾驶(E2E-AD)已迅速成为实现完全自治的有前途的方法。但是,现有的E2E-AD系统通常采用传统的多任务框架,通过单独的特定任务负责人来解决感知,预测和计划任务。尽管接受了完全可区分的培训,但他们仍然会遇到任务协调的问题,并且系统的复杂性仍然很高 ...
我们提出了扩散模型预测控制(D-MPC),这是一种新型的MPC方法,它使用扩散模型学习了多步操作建议和多步动力学模型,并将它们结合在一起用于在线MPC。在流行的D4RL基准测试中,我们显示的性能要比现有的基于模型的离线计划方法使用MPC明显好,并与最先进的ART(SOTA)基于模型和无模型的增强加固学习方法竞争。我们还说明了D-MPC在运行时优化新型奖励功能并适应新型动态的能力,并强调了其与现有基于扩散的计划基线相比的优势 ...
开发能够以人类水平的安全性和效率在复杂环境中行驶的自动驾驶汽车是自动驾驶研究的核心目标。实现这一目标的常见方法是模仿学习,即训练智能体模仿从现实世界驾驶场景中收集的人类专家演示。然而,人类感知和自动驾驶汽车传感器之间的差异可能会引入\textit{模仿差距},导致模仿学习失败 ...
随着自动驾驶系统的成熟,运动预测已受到越来越多的关注,这是计划的关键要求。特别重要的是交互式情况,例如合并,未保护的转弯等,在这些情况下,预测单个对象运动不足 ...
Hydra-MDP ++介绍了一个新颖的教师知识蒸馏框架,该框架具有多头解码器,该解码器从人类示范和基于规则的专家中学习。该框架使用轻巧的Resnet-34网络,并结合了扩展的评估指标,包括交通信号灯合规性(TL),巷道维护能力(LK)和扩展舒适度(EC),以解决传统NAVSIM衍生老师未捕获的不安全行为。像其他端到端自动驾驶方法一样,\ hydra直接处理原始图像,而无需依赖特权的感知信号 ...
基于学习的决策有可能实现可概括的自动驾驶(AD)政策,从而减少了基于规则的方法的工程开销。模仿学习(IL)仍然是主要的范式,受益于大规模的人类示范数据集,但它具有固有的局限性,例如分布变化和模仿差距。强化学习(RL)提出了一种有希望的选择,但由于缺乏标准化和有效的研究框架,其在AD中的采用仍然有限 ...
在这项工作中,我们旨在使用具有一组参数的单个加固学习代理来解决大量任务。一个关键的挑战是处理增加的数据和延长培训时间。我们已经开发了一种新的分布式代理Impala(重要的加权演员学习者体系结构),该架构不仅在单机器训练中更有效地使用资源,而且在不牺牲数据效率或资源利用率的情况下将其扩展到数千台机器 ...
自主驾驶的现代方法在很大程度上依赖于通过模仿学习训练大量人类驾驶数据的学习组件。但是,这些方法需要大量昂贵的数据收集,即使随着时间的流逝,可以安全处理长尾方案和复合错误,即使随后面临挑战。同时,纯钢筋学习(RL)方法可能无法以稀疏,约束且具有挑战性的奖励设置(例如自动驾驶)学习性能政策 ...
在本文中,我们介绍了CAPS(上下文感知的优先采样),这是一种新颖的方法,旨在提高基于学习的自主驾驶系统的数据效率。 CAPS通过利用Vector量化的变异自动编码器(VQ-VAE)来应对模仿学习中不平衡训练数据集的挑战。 VQ-VAE的使用提供了一个结构化且可解释的数据表示,这有助于揭示数据中有意义的模式 ...
由于难以学习最佳驾驶政策,因此具有复杂多代理动力学的自主城市驾驶导航尚未探索。传统的模块化管道在很大程度上依赖于手工设计的规则和预处理的感知系统,而受监督的基于学习的模型受到广泛的人类经验的可及性的限制。我们提出了一种通用和原则可控的模仿增强学习(CIRL)方法,该方法成功地使驱动剂基于高保真汽车模拟器中的视力输入而获得更高的成功率 ...