Openai O1和DeepSeek R1在数学和科学等复杂领域中实现甚至超过了人类专家水平的表现,并通过强化学习(RL)和推理发挥了至关重要的作用。在自动驾驶中,最近的端到端模型具有大大改善的计划绩效,但由于有限的常识和推理能力,仍在努力解决长尾问题。一些研究将视觉模型(VLM)集成到自动驾驶中,但它们通常依靠预先训练的模型,并在驾驶数据上简单监督的微调(SFT),而无需进一步探索培训策略或专门针对计划的优化 ...

0 0 0 0 2025/03/13 arXiv:2503.07608v1 wyystudy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)