视觉语言模型 (VLM) 擅长高级场景理解,但在需要精确定位的细粒度感知任务上表现不佳。这种失败源于根本性的不匹配,因为对于以语言为中心的架构来说,生成精确的数字坐标是一项具有挑战性的任务。在本文中,我们介绍了 VLM-FO1,这是一种新颖的框架,它通过将以对象为中心的感知从脆弱的坐标生成问题重新构建为鲁棒的特征检索任务来克服这一限制。我们的方法作为即插即用模块运行,可与任何预先训练的 VLM 集成。它利用具有双视觉编码器的混合细粒度区域编码器(HFRE)来生成富含语义和空间细节的强大区域标记。然后,基于标记的参考系统使 LLM 能够无缝推理这些特定视觉区域中的基础语言。实验表明,VLM-FO1 在各种基准测试中实现了最先进的性能,展示了在对象接地、区域生成理解和视觉区域推理方面的卓越能力。至关重要的是,我们的两阶段训练策略确保在不损害基础模型的一般视觉理解能力的情况下实现这些感知增益。 VLM-FO1 为构建感知感知 VLM 建立了有效且灵活的范例,弥合了高级推理和细粒度视觉基础之间的差距 ...

0 0 0 0 2025/11/13 arXiv:2509.25916v1 chenlei

规划是端到端自动驾驶的关键组成部分。然而,流行的模仿学习方法经常遭受模式崩溃的困扰,无法产生多样化的轨迹假设。与此同时,现有的生成方法很难将关键的安全和物理约束直接纳入生成过程,因此需要额外的优化阶段来完善其输出。为了解决这些限制,我们提出了 CATG,这是一种利用约束流匹配的新颖规划框架。具体来说,CATG 明确地模拟了流量匹配过程,这本质上减轻了模式崩溃,并允许来自各种调节信号的灵活指导。我们的主要贡献是直接在流量匹配过程中直接施加显式约束,确保生成的轨迹遵守重要的安全和运动学规则。其次,CATG 在生成过程中将驾驶攻击性参数化为控制信号,从而能够精确操纵轨迹风格。值得注意的是,在 NavSim v2 挑战赛中,CATG 以 EPDMS 得分 51.31 获得第二名,并荣获创新奖 ...

0 0 0 0 2025/11/10 arXiv:2510.26292v1 chenlei

端到端驾驶模仿学习仅在专家演示上训练政策。一旦部署在闭环中,此类策略就缺乏恢复数据:小错误无法纠正,并很快会导致故障。一个有希望的方向是在记录的路径之外生成替代的观点和轨迹 ...

0 0 0 0 2025/10/31 arXiv:2510.04333v1 chenlei

传统的端到端(E2E)驾驶模型可以有效地生成物理上合理的轨迹,但由于缺乏理解和推理周围环境的基本世界知识,通常无法推广到长尾场景。相比之下,视觉-语言-动作 (VLA) 模型利用世界知识来处理具有挑战性的案例,但其有限的 3D 推理能力可能会导致物理上不可行的动作。在这项工作中,我们介绍了 DiffVLA++,这是一种增强的自动驾驶框架,它通过度量引导的对齐方式明确地连接认知推理和 E2E 规划 ...

0 0 0 0 2025/10/25 arXiv:2510.17148v2 chenlei

自动驾驶在实现类人迭代决策方面面临着重大挑战,迭代决策需要不断生成、评估和完善轨迹建议。当前的生成评估框架将轨迹生成与质量评估隔离开来,阻止了规划所必需的迭代细化,而强化学习方法将多维偏好分解为标量奖励,模糊了关键权衡并产生了标量化。这个http URL克服了这些问题,我们提出了EvaDrive,一种新颖的多目标强化学习框架,它在轨迹生成和轨迹生成之间建立了真正的闭环协同进化。 通过对抗性优化进行评估。 EvaDrive 将轨迹规划构建为多轮对抗游戏 ...

0 0 0 0 2025/10/17 arXiv:2508.09158v2 chenlei

本文介绍了 BEV-VLM,这是一种用于自动驾驶轨迹规划的新颖框架,它利用视觉语言模型 (VLM) 和鸟瞰图 (BEV) 特征图作为视觉输入。与仅依赖原始视觉数据(例如相机图像)的传统方法不同,我们的方法利用高度压缩且信息丰富的 BEV 表示,这些表示是通过融合多模态传感器数据(例如,传感器数据)生成的 ...

0 0 0 0 2025/10/11 arXiv:2509.25249v1 chenlei

我们提出图像界,一种学习跨六个不同方式的关节嵌入的方法 - 图像,文本,音频,深度,热和IMU数据。我们表明,配对数据的所有组合对于训练这种联合嵌入并不是必需的,并且只有图像对数据足以将模态绑定在一起。 ImageBind可以通过使用与图像的自然配对来利用最近的大型视觉语言模型,并将其零击功能扩展到新的模式 ...

0 0 0 0 2025/09/12 arXiv:2305.05665v2 chenlei

对汽车嵌入式系统必不可少的控制器区域网络(CAN)协议缺乏固有的安全功能,使其容易受到网络威胁的影响,尤其是随着自动驾驶汽车的兴起。传统的安全措施提供有限的保护,例如有效载荷加密和消息身份验证。本文提出了一种专为CAN环境设计的新型入侵检测系统(IDS),利用硬件性能计数器(HPC)来检测指示网络攻击的异常 ...

0 0 0 0 2025/08/28 arXiv:2507.14739v1 chenlei

汽车技术的进步使网络安全成为至关重要的重点,导致了各种网络攻击。这些攻击主要针对控制器区域网络(CAN)和专业电子控制单元(ECU)。为了减轻这些攻击并增强车辆系统的安全性,许多HTTP URL解决方案旨在检测各种形式的车辆攻击 ...

0 0 0 0 2025/08/27 arXiv:2505.17274v1 chenlei

传统的自主驾驶系统通常很难将高级推理与低水平控制联系起来,从而导致次优,有时甚至不安全。处理视觉和文本数据的多模式大语言模型(MLLM)的最新进展为统一感知和推理提供了机会。但是,有效地将精确的安全知识嵌入MLLM中以进行自主驾驶仍然是一个重大挑战 ...

0 0 0 0 2025/08/04 arXiv:2503.00211v2 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)