近年来,以GPT-4V为代表的多模态大语言模型(MLLM)成为新的研究热点,它利用强大的大语言模型(LLM)作为大脑来执行多模态任务。 MLLM 令人惊讶的新兴功能,例如基于图像编写故事和无 OCR 的数学推理,在传统的多模态方法中很少见,这表明了通向通用人工智能的潜在途径。为此,学术界和工业界都在努力开发能够与GPT-4V竞争甚至更好的MLLM,以惊人的速度突破了研究的极限。在本文中,我们旨在追踪和总结 MLLM 的最新进展。首先,我们提出了 MLLM 的基本表述并描述了其相关概念,包括架构、训练策略和数据以及评估。然后,我们介绍有关如何扩展 MLLM 以支持更多粒度、模式、语言和场景的研究主题。我们继续研究多模态幻觉和扩展技术,包括多模态 ICL (M-ICL)、多模态 CoT (M-CoT) 和 LLM 辅助视觉推理 (LAVR)。最后,我们讨论了现有的挑战并指出了有前景的研究方向。鉴于MLLM时代才刚刚开始,我们将不断更新这项调查,希望它能激发更多的研究。此 https URL 提供了收集最新论文的关联 GitHub 链接 ...

0 1 0 0 2025/11/22 arXiv:2306.13549v4 chenlei

我们提出了HaoMo视觉语言模型(HMVLM),这是一个端到端驱动框架,它实现了受认知启发的快慢架构的慢分支。快速控制器输出低级转向、油门和制动命令,而慢速规划器(大型视觉语言模型)生成高级意图,例如“让行人让行”或“在卡车后并道”,而不会影响延迟。 HMVLM 引入了三项升级:(1) 具有嵌入式 4s 自我运动学历史的选择性五视图提示,(2) 多阶段思想链 (CoT) 提示,强制执行场景理解 -> 驾驶决策 -> 轨迹推理推理流程,以及 (3) 基于样条的轨迹后处理,消除后期抖动和急转弯。这些升级在 Waymo 开放数据集上进行训练,使 HMVLM 的评分者反馈分数 (RFS) 达到 7.7367,在 2025 年基于 Waymo 视觉的端到端 (E2E) 驾驶挑战赛中获得第二名,超出公共基线 2.77% ...

0 0 0 0 2025/11/18 arXiv:2506.05883v1 chenlei

视觉语言模型 (VLM) 擅长高级场景理解,但在需要精确定位的细粒度感知任务上表现不佳。这种失败源于根本性的不匹配,因为对于以语言为中心的架构来说,生成精确的数字坐标是一项具有挑战性的任务。在本文中,我们介绍了 VLM-FO1,这是一种新颖的框架,它通过将以对象为中心的感知从脆弱的坐标生成问题重新构建为鲁棒的特征检索任务来克服这一限制。我们的方法作为即插即用模块运行,可与任何预先训练的 VLM 集成。它利用具有双视觉编码器的混合细粒度区域编码器(HFRE)来生成富含语义和空间细节的强大区域标记。然后,基于标记的参考系统使 LLM 能够无缝推理这些特定视觉区域中的基础语言。实验表明,VLM-FO1 在各种基准测试中实现了最先进的性能,展示了在对象接地、区域生成理解和视觉区域推理方面的卓越能力。至关重要的是,我们的两阶段训练策略确保在不损害基础模型的一般视觉理解能力的情况下实现这些感知增益。 VLM-FO1 为构建感知感知 VLM 建立了有效且灵活的范例,弥合了高级推理和细粒度视觉基础之间的差距 ...

0 0 0 0 2025/11/13 arXiv:2509.25916v1 chenlei

规划是端到端自动驾驶的关键组成部分。然而,流行的模仿学习方法经常遭受模式崩溃的困扰,无法产生多样化的轨迹假设。与此同时,现有的生成方法很难将关键的安全和物理约束直接纳入生成过程,因此需要额外的优化阶段来完善其输出。为了解决这些限制,我们提出了 CATG,这是一种利用约束流匹配的新颖规划框架。具体来说,CATG 明确地模拟了流量匹配过程,这本质上减轻了模式崩溃,并允许来自各种调节信号的灵活指导。我们的主要贡献是直接在流量匹配过程中直接施加显式约束,确保生成的轨迹遵守重要的安全和运动学规则。其次,CATG 在生成过程中将驾驶攻击性参数化为控制信号,从而能够精确操纵轨迹风格。值得注意的是,在 NavSim v2 挑战赛中,CATG 以 EPDMS 得分 51.31 获得第二名,并荣获创新奖 ...

0 0 0 0 2025/11/10 arXiv:2510.26292v1 chenlei

端到端驾驶模仿学习仅在专家演示上训练政策。一旦部署在闭环中,此类策略就缺乏恢复数据:小错误无法纠正,并很快会导致故障。一个有希望的方向是在记录的路径之外生成替代的观点和轨迹 ...

0 0 0 0 2025/10/31 arXiv:2510.04333v1 chenlei

传统的端到端(E2E)驾驶模型可以有效地生成物理上合理的轨迹,但由于缺乏理解和推理周围环境的基本世界知识,通常无法推广到长尾场景。相比之下,视觉-语言-动作 (VLA) 模型利用世界知识来处理具有挑战性的案例,但其有限的 3D 推理能力可能会导致物理上不可行的动作。在这项工作中,我们介绍了 DiffVLA++,这是一种增强的自动驾驶框架,它通过度量引导的对齐方式明确地连接认知推理和 E2E 规划 ...

0 0 0 0 2025/10/25 arXiv:2510.17148v2 chenlei

自动驾驶在实现类人迭代决策方面面临着重大挑战,迭代决策需要不断生成、评估和完善轨迹建议。当前的生成评估框架将轨迹生成与质量评估隔离开来,阻止了规划所必需的迭代细化,而强化学习方法将多维偏好分解为标量奖励,模糊了关键权衡并产生了标量化。这个http URL克服了这些问题,我们提出了EvaDrive,一种新颖的多目标强化学习框架,它在轨迹生成和轨迹生成之间建立了真正的闭环协同进化。 通过对抗性优化进行评估。 EvaDrive 将轨迹规划构建为多轮对抗游戏 ...

0 0 0 0 2025/10/17 arXiv:2508.09158v2 chenlei

本文介绍了 BEV-VLM,这是一种用于自动驾驶轨迹规划的新颖框架,它利用视觉语言模型 (VLM) 和鸟瞰图 (BEV) 特征图作为视觉输入。与仅依赖原始视觉数据(例如相机图像)的传统方法不同,我们的方法利用高度压缩且信息丰富的 BEV 表示,这些表示是通过融合多模态传感器数据(例如,传感器数据)生成的 ...

0 0 0 0 2025/10/11 arXiv:2509.25249v1 chenlei

我们提出图像界,一种学习跨六个不同方式的关节嵌入的方法 - 图像,文本,音频,深度,热和IMU数据。我们表明,配对数据的所有组合对于训练这种联合嵌入并不是必需的,并且只有图像对数据足以将模态绑定在一起。 ImageBind可以通过使用与图像的自然配对来利用最近的大型视觉语言模型,并将其零击功能扩展到新的模式 ...

0 0 0 0 2025/09/12 arXiv:2305.05665v2 chenlei

对汽车嵌入式系统必不可少的控制器区域网络(CAN)协议缺乏固有的安全功能,使其容易受到网络威胁的影响,尤其是随着自动驾驶汽车的兴起。传统的安全措施提供有限的保护,例如有效载荷加密和消息身份验证。本文提出了一种专为CAN环境设计的新型入侵检测系统(IDS),利用硬件性能计数器(HPC)来检测指示网络攻击的异常 ...

0 0 0 0 2025/08/28 arXiv:2507.14739v1 chenlei

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)