由于具有强大的视觉推理和概括能力,多模式的大语言模型(MLLM)在端到端(E2E)自主驾驶领域引起了极大的关注。但是,它们在闭环系统中的应用仍未得到充满信心,而当前的基于MLLM的方法尚未显示出与主流E2E模仿学习方法的明显优势。在这项工作中,我们提出了推理计划,这是一个新颖的MLLM微调框架,旨在通过自我监督的下一个场景预测任务和监督的决策链过程,旨在通过整体推理进行闭环 ...
端到端的学习已成为自动驾驶中的变革性范式。但是,驾驶行为的固有多模式性质和长尾场景中的概括挑战仍然是强大部署的关键障碍。我们提出了Diffe2E,这是一个基于扩散的端到端自动驾驶框架 ...
现代端到端的自主驾驶系统受到关键限制:他们的计划者缺乏在预测的轨迹和不断发展的场景动态之间实现时间一致性的机制。缺乏自学的情况会使早期的预测错误随着时间的流逝而造成灾难性的灾难性。我们介绍了Echo Planning,这是一个新颖的自我校正框架,该框架建立了一个闭环电流 - 未来 - 当前(CFC)周期,以将轨迹预测与场景连贯性进行协调 ...
自然语言处理中大型语言模型的快速发展大大提高了他们的语义理解和逻辑推理能力。这些能力已在自动驾驶系统中利用,从而有助于系统性能的重大改善。诸如OpenAi O1和DeepSeek-R1之类的模型,杠杆链(COT)推理,这是一种先进的认知方法,可以模拟人类思维过程,并在复杂的任务中证明了出色的推理能力 ...
尽管发展了十多年,但在复杂的城市环境中的自主驾驶轨迹计划仍在遇到重大挑战。这些挑战包括容纳轨迹的多模式性质的困难,在管理各种场景方面的单一专家的局限性以及对环境互动的不足。为了解决这些问题,本文介绍了Emoe-Planner,其中包含了三种创新方法 ...
运动预测是对未来代理状态或场景演变的预期,植根于人类认知,桥接感知和决策。它使智能系统(例如机器人和自动驾驶汽车)能够在动态的,人类参与的环境中安全起作用,并告知更广泛的时间序列推理挑战。随着方法,表示和数据集的进步,该领域已经取得了迅速的进步,反映在快速发展的基准结果中 ...
我们提出了DSDRIVE,这是一种量身定制的端到端范式,该范式旨在将自动驾驶汽车的推理和计划集成到统一的框架中。 DSDRIVE利用采用蒸馏方法的紧凑型LLM来保留大型视觉语言模型(VLM)的增强推理能力。为了有效地调整推理和计划任务,进一步开发了以Waypoint驱动的双头协调模块的形式,该模块将同步数据集结构,优化目标和学习过程 ...
尽管在近距离3D对象检测中深入学习取得了成功,但现有的方法在新型对象和摄像机配置中零弹性概括。我们介绍了Detany3D,这是一个迅速的3D检测基础模型,该模型能够仅使用单眼输入来检测任意摄像机配置下的任何新颖对象。培训3D检测的基础模型从根本上受到注释3D数据的可用性有限的限制,这激发了Detany3D利用广泛预先训练的2D基础模型嵌入的丰富先验知识来弥补这种稀缺性 ...
本文介绍了Artemis,这是一种端到端的自动驾驶框架,将自回归轨迹计划与Experture(MOE)结合在一起。传统的模块化方法患有错误传播,而现有的端到端模型通常采用静态的一弹性推理范例,而这些推理范式不足以捕获环境的动态变化。 Artemis通过顺序生成轨迹航路点来采用不同的方法,保留关键的时间依赖性,同时动态路由特定于场景的查询到专门的专家网络 ...
端到端(E2E)自主驾驶(AD)模型需要多种高质量的数据,才能在各种驾驶场景中表现良好。但是,收集大规模的现实世界数据是昂贵且耗时的,这使得高保真合成数据对于增强数据多样性和模型鲁棒性至关重要。合成数据生成的现有驾驶模拟器具有重大局限性:基于游戏引擎的模拟器难以生成逼真的传感器数据,而基于NERF的基于NERF和基于扩散的方法面临效率挑战 ...