大型语言模型(LLM)的最新成功使他们对自我纠正能力的兴趣越来越大。本文对LLM的内在自我纠正进行了全面的调查,试图解决有关其可行性的持续辩论。我们的研究确定了在自我纠正过程中的重要潜在因素 - LLM的“信心” ...
由于具有强大的视觉推理和概括能力,多模式的大语言模型(MLLM)在端到端(E2E)自主驾驶领域引起了极大的关注。但是,它们在闭环系统中的应用仍未得到充满信心,而当前的基于MLLM的方法尚未显示出与主流E2E模仿学习方法的明显优势。在这项工作中,我们提出了推理计划,这是一个新颖的MLLM微调框架,旨在通过自我监督的下一个场景预测任务和监督的决策链过程,旨在通过整体推理进行闭环 ...
端到端的学习已成为自动驾驶中的变革性范式。但是,驾驶行为的固有多模式性质和长尾场景中的概括挑战仍然是强大部署的关键障碍。我们提出了Diffe2E,这是一个基于扩散的端到端自动驾驶框架 ...
现代端到端的自主驾驶系统受到关键限制:他们的计划者缺乏在预测的轨迹和不断发展的场景动态之间实现时间一致性的机制。缺乏自学的情况会使早期的预测错误随着时间的流逝而造成灾难性的灾难性。我们介绍了Echo Planning,这是一个新颖的自我校正框架,该框架建立了一个闭环电流 - 未来 - 当前(CFC)周期,以将轨迹预测与场景连贯性进行协调 ...
自然语言处理中大型语言模型的快速发展大大提高了他们的语义理解和逻辑推理能力。这些能力已在自动驾驶系统中利用,从而有助于系统性能的重大改善。诸如OpenAi O1和DeepSeek-R1之类的模型,杠杆链(COT)推理,这是一种先进的认知方法,可以模拟人类思维过程,并在复杂的任务中证明了出色的推理能力 ...
对操纵的模仿学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频 ...
相机姿势估计是一个长期存在的计算机视觉问题,迄今为止,它通常依赖于经典方法,例如手工制作的键盘匹配,RANSAC和捆绑包调整。在本文中,我们建议在概率扩散框架内从运动(SFM)问题中提出结构,对给定输入图像的相机姿势的条件分布进行建模。这个关于旧问题的新颖观点具有几个优势 ...
大型推理模型(例如OpenAI的O3)的关键趋势是使用外部工具(例如Web浏览器)进行搜索和编写/执行代码进行图像操作以使用图像进行思考的本地代理能力 ...