当前自动驾驶中的视觉-语言-动作(VLA)范式主要依赖于模仿学习(IL),这引入了分布偏移和因果混乱等固有挑战。在线强化学习提供了一条通过试错学习解决这些问题的有前途的途径。然而,将在线强化学习应用于自动驾驶中的 VLA 模型却因连续动作空间中的低效探索而受到阻碍。为了克服这一限制,我们提出了 MindDrive,这是一个 VLA 框架,包含一个具有两组不同 LoRA 参数的大型语言模型 (LLM)。一名 LLM 充当场景推理和驱动决策的决策专家,而另一名 LLM 则充当行动专家,将语言决策动态映射到可行的轨迹。通过将轨迹级奖励反馈回推理空间,MindDrive 可以对一组有限的离散语言驾驶决策进行试错学习,而不是直接在连续的动作空间中操作。该方法有效地平衡了复杂场景下的最优决策、类人驾驶行为以及在线强化学习的高效探索。使用轻量级 Qwen-0.5B LLM,MindDrive 在具有挑战性的 Bench2Drive 基准测试中获得了 78.04 的驾驶分数 (DS) 和 55.09% 的成功率 (SR)。据我们所知,这是第一个展示自动驾驶中 VLA 模型在线强化学习有效性的工作 ...

0 0 0 0 2026/03/30 arXiv:2512.13636v3 chenlei

世界模型对于自动驾驶至关重要,因为它们可以了解场景如何随着时间的推移而演变,以解决现实世界的长尾挑战。然而,当前的方法将世界模型限制在有限的角色中:它们在表面上统一的架构中运行,而这些架构仍然将世界预测和运动规划保持为解耦的过程。为了弥补这一差距,我们提出了 DriveLaW,这是一种统一视频生成和运动规划的新颖范例。通过直接将视频生成器中的潜在表示注入规划器中,DriveLaW 确保了高保真未来生成与可靠轨迹规划之间的内在一致性。具体来说,DriveLaW 由两个核心组件组成:DriveLaW-Video,我们强大的世界模型,可通过富有表现力的潜在表示生成高保真度预测;DriveLaW-Act,一种扩散规划器,可从 DriveLaW-Video 的潜在特征生成一致且可靠的轨迹,这两个组件均通过三阶段渐进训练策略进行优化。我们统一范式的力量通过这两项任务的新的最先进的结果得到了证明。 DriveLaW 不仅显着提高了视频预测的性能,在 FID 中超越了最佳表现 33.3%,在 FVD 中超越了 1.8%,而且还在 NAVSIM 规划基准上创造了新记录 ...

0 0 0 0 2026/03/27 arXiv:2512.23421v2 chenlei

视频生成模型作为自动驾驶模拟的世界模型已显示出强大的潜力。然而,现有的方法主要是在现实世界的驾驶数据集上进行训练,这些数据集大多包含自然和安全的驾驶场景。因此,当前的模型在遇到具有挑战性或反事实的轨迹(例如模拟器或规划系统生成的不完美轨迹)时经常会失败,从而生成具有严重物理不一致和伪影的视频。为了解决这一限制,我们提出了 PhyGenesis,这是一种世界模型,旨在生成具有高视觉保真度和强物理一致性的驾驶视频。我们的框架由两个关键组件组成:(1) 物理条件生成器,将潜在无效的轨迹输入转换为物理上合理的条件;(2) 物理增强视频生成器,在这些条件下生成高保真多视图驾驶视频。为了有效地训练这些组件,我们构建了一个大规模的、物理丰富的异构数据集。具体来说,除了真实世界的驾驶视频外,我们还使用 CARLA 模拟器生成各种具有挑战性的驾驶场景,从中导出监督信号,指导模型学习极端条件下的物理接地动力学。这种具有挑战性的轨迹学习策略可以实现轨迹校正并促进物理一致的视频生成。大量实验表明,PhyGenesis 始终优于最先进的方法,尤其是在具有挑战性的轨迹上。我们的项目页面位于:此 https URL ...

0 0 0 0 2026/03/27 arXiv:2603.24506v1 chenlei

端到端规划方法是当前自动驾驶系统的事实上的标准,而数据驱动方法的稳健性由于臭名昭著的长尾问题(即罕见但安全关键的故障案例)而受到影响。在这项工作中,我们探讨了最近的基于扩散的视频生成方法(也称为世界模型)与结构化 3D 布局相结合,是否可以实现完全自动化的管道来自我纠正此类故障情况。我们首先引入一个代理来模拟产品经理的角色,称为PM-Agent,它制定数据要求来收集类似于故障案例的数据。然后,我们使用可以模拟数据收集和注释的生成模型。然而,现有的生成模型难以生成以 3D 布局为条件的高保真数据。为了解决这个问题,我们提出了 DriveSora,它可以生成与 PM-Agent 请求的 3D 注释一致的时空一致的视频。我们将这些组件集成到我们的自我纠正代理系统 CorrectAD 中。重要的是,我们的管道与端到端模型无关,可用于改进任何端到端规划器。在 nuScenes 和跨多个端到端规划器的更具挑战性的内部数据集上进行评估,CorrectAD 纠正了 62.5% 和 49.8% 的故障案例,分别将冲突率降低了 39% 和 27% ...

0 0 0 0 2026/03/26 arXiv:2511.13297v1 chenlei

我们提出了多模态 OCR (MOCR),这是一种文档解析范例,可将文本和图形联合解析为统一的文本表示。与专注于文本识别并将图形区域保留为裁剪像素的传统 OCR 系统不同,我们的方法(称为此 http URL)将图表、图表、表格和图标等视觉元素视为一流的解析目标,使系统能够解析文档,同时保留元素之间的语义关系。它具有以下几个优点:(1)它将文本和图形重建为结构化输出,从而实现更忠实的文档重建; (2)它支持异构文档元素的端到端训练,允许模型利用文本和视觉组件之间的语义关系; (3)它将以前丢弃的图形转换为可重用的代码级监督,解锁嵌入现有文档中的多模式监督。为了使这种范式大规模实用,我们从 PDF、渲染的网页和本机 SVG 资源构建了一个全面的数据引擎,并通过分阶段预训练和监督微调来训练紧凑的 3B 参数模型。我们从两个角度评估这个http URL:文档解析和结构化图形解析。在文档解析基准测试中,它在我们的 OCR Arena Elo 排行榜上排名第二,仅次于 Gemini 3 Pro,超越了现有的开源文档解析系统,并在 olmOCR Bench 上创下了 83.9 的新水平。在结构化图形解析方面,该 http URL 在图像到 SVG 基准测试中实现了比 Gemini 3 Pro 更高的重建质量,在图表、UI 布局、科学图表和化学图表上展示了强大的性能。这些结果展示了为多模式预训练构建大规模图像到代码语料库的可扩展路径。代码和模型可通过此 https URL 公开获得 ...

0 0 0 0 2026/03/25 arXiv:2603.13032v2 chenlei

交通冲突检测通过在潜在碰撞发生之前识别潜在碰撞,对于主动道路安全至关重要。现有方法依赖于针对特定交互(例如跟车、侧滑或交叉路径)量身定制的替代安全措施,并且在不同的交通条件下需要不同的阈值。这种变化导致冲突检测在不断变化的流量环境中出现不一致和适应性有限。因此,始终需要对交互上下文中的流量冲突进行一致的检测。为了满足这一需求,本研究提出了一种统一的概率方法。所提出的方法建立了交通冲突检测的统一框架,其中交通冲突被表述为道路用户交互的上下文相关的极端事件。然后,冲突检测被分解为一系列统计学习任务:表示交互上下文、推断邻近分布以及评估极端碰撞风险。统一的公式可以容纳交通冲突的不同假设,学习任务可以对道路使用者的运动状态、环境条件和参与者特征等因素进行数据驱动的分析。总之,该方法支持对道路使用者交互中出现的碰撞风险进行一致和全面的评估。我们使用真实世界轨迹数据进行的实验表明,该方法提供了有效的碰撞警告,概括了不同的数据集和交通环境,涵盖了广泛的冲突类型,并捕获了冲突强度的长尾分布。研究结果强调了其在加强交通基础设施和政策的安全评估、改进自动驾驶碰撞预警系统以及加深对安全关键交互中道路使用者行为的理解方面的潜力 ...

0 0 0 0 2026/03/12 arXiv:2407.10959v5 chenlei

准确、主动地向驾驶员或自动化系统发出新出现的碰撞警报对于道路安全至关重要,特别是在高度互动和复杂的城市环境中。现有方法要么需要对稀疏风险进行劳动密集型注释,难以考虑不同的背景因素,要么针对有限的场景进行定制。在这里,我们提出了广义替代安全措施(GSSM),这是一种数据驱动的方法,可以从自然驾驶中学习碰撞风险,而无需碰撞或风险标签。仅使用瞬时运动运动学的基本 GSSM 经过多个数据集的训练和 2,591 次现实世界碰撞和接近碰撞的评估,其精确回忆曲线下的面积达到 0.9,并确保中位时间提前 2.6 秒,以防止潜在的碰撞。结合额外的交互模式和上下文因素可以进一步提高性能。在追尾、并道和转向等交互场景中,GSSM 在准确性和及时性方面始终优于现有基线。这些结果将 GSSM 确立为可扩展、情境感知和通用的基础,可在风险交互变得不可避免之前识别它们,支持自动驾驶系统和交通事故管理中的主动安全。代码和实验数据可通过此 https URL 公开访问 ...

0 1 0 0 2026/03/12 arXiv:2505.13556v4 chenlei

配备自动驾驶系统(ADS)的车辆在具有多智能体交互的高维连续系统中运行。该连续系统具有由连续运动常微分方程(微分驱动)控制的各种类型的交通代理(非齐次)。每个智能体独立做出决策,这可能会导致与主体车辆(SV)以及其他参与者(非合作)发生冲突。使用各种安全关键场景并观察由此产生的碰撞(或接近碰撞)的典型车辆安全评估程序不足以评估 ADS 在操作安全状态维护方面的性能。在本文中,我们引入了模型预测瞬时安全度量(MPrISM),它考虑给定交通快照的最坏情况安全场景,确定 SV 的安全状态。然后,该方法分析特定评估时间段内 SV 与潜在碰撞的接近程度。所描述的度量在标准假设下从碰撞时间方面引入了安全性的理论保证。通过将解决方案制定为一系列特定结构的极小极大二次优化问题,该方法易于处理实时安全评估应用。它的功能通过来自现实世界测试的综合示例和案例进行了演示 ...

0 0 0 0 2026/03/11 arXiv:2005.09999v1 chenlei

端到端驱动是一种有前途的范例,因为它克服了与模块化系统相关的缺点,例如其巨大的复杂性和错误传播的倾向。自动驾驶超越了传统的交通模式,能够提前主动识别关键事件,确保乘客的安全并为他们提供舒适的交通,特别是在高度随机和多变的交通环境中。本文对端到端自动驾驶堆栈进行了全面回顾。它提供了自动驾驶任务的分类,其中神经网络以端到端的方式使用,涵盖从感知到控制的整个驾驶过程,同时解决现实应用中遇到的关键挑战。分析了端到端自动驾驶的最新发展,并根据基本原理、方法和核心功能对研究进行了分类。这些类别包括感觉输入、主要和辅助输出、从模仿到强化学习的学习方法以及模型评估技术。该调查详细讨论了可解释性和安全性方面。此外,它还评估最先进的技术、识别挑战并探索未来的可能性。我们在此 https URL 上维护了最新的进展及其相应的开源实现 ...

0 0 0 0 2026/03/11 arXiv:2307.04370v2 chenlei

数据集推动视觉进步,但现有的驾驶数据集在视觉内容和支持的任务方面缺乏,无法研究自动驾驶的多任务学习。研究人员通常只能研究一个数据集上的一小部分问题,而现实世界的计算机视觉应用程序需要执行各种复杂的任务。我们构建了 BDD100K,这是最大的驾驶视频数据集,包含 100K 视频和 10 个任务,以评估自动驾驶图像识别算法的令人兴奋的进展。该数据集具有地理、环境和天气多样性,这对于训练不太可能对新条件感到惊讶的模型很有用。基于这个多样化的数据集,我们构建了异构多任务学习的基准,并研究如何共同解决任务。我们的实验表明,现有模型需要特殊的训练策略来执行此类异构任务。 BDD100K 为未来在这个重要场所的研究打开了大门 ...

0 0 0 0 2026/03/10 arXiv:1805.04687v2 chenlei