Openai O1和DeepSeek R1在数学和科学等复杂领域中实现甚至超过了人类专家水平的表现,并通过强化学习(RL)和推理发挥了至关重要的作用。在自动驾驶中,最近的端到端模型具有大大改善的计划绩效,但由于有限的常识和推理能力,仍在努力解决长尾问题。一些研究将视觉模型(VLM)集成到自动驾驶中,但它们通常依靠预先训练的模型,并在驾驶数据上简单监督的微调(SFT),而无需进一步探索培训策略或专门针对计划的优化 ...
Openai O1和DeepSeek R1在数学和科学等复杂领域中实现甚至超过了人类专家水平的表现,并通过强化学习(RL)和推理发挥了至关重要的作用。在自动驾驶中,最近的端到端模型具有大大改善的计划绩效,但由于有限的常识和推理能力,仍在努力解决长尾问题。一些研究将视觉模型(VLM)集成到自动驾驶中,但它们通常依靠预先训练的模型,并在驾驶数据上简单监督的微调(SFT),而无需进一步探索培训策略或专门针对计划的优化 ...