chenlei的文档

A Survey on Multimodal Large Language Models

近年来，以GPT-4V为代表的多模态大语言模型（MLLM）成为新的研究热点，它利用强大的大语言模型（LLM）作为大脑来执行多模态任务。 MLLM 令人惊讶的新兴功能，例如基于图像编写故事和无 OCR 的数学推理，在传统的多模态方法中很少见，这表明了通向通用人工智能的潜在途径。为此，学术界和工业界都在努力开发能够与GPT-4V竞争甚至更好的MLLM，以惊人的速度突破了研究的极限。在本文中，我们旨在追踪和总结 MLLM 的最新进展。首先，我们提出了 MLLM 的基本表述并描述了其相关概念，包括架构、训练策略和数据以及评估。然后，我们介绍有关如何扩展 MLLM 以支持更多粒度、模式、语言和场景的研究主题。我们继续研究多模态幻觉和扩展技术，包括多模态 ICL (M-ICL)、多模态 CoT (M-CoT) 和 LLM 辅助视觉推理 (LAVR)。最后，我们讨论了现有的挑战并指出了有前景的研究方向。鉴于MLLM时代才刚刚开始，我们将不断更新这项调查，希望它能激发更多的研究。此 https URL 提供了收集最新论文的关联 GitHub 链接 ...

0 1 0 0 2025/11/22 arXiv:2306.13549v4 chenlei

HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios

我们提出了HaoMo视觉语言模型（HMVLM），这是一个端到端驱动框架，它实现了受认知启发的快慢架构的慢分支。快速控制器输出低级转向、油门和制动命令，而慢速规划器（大型视觉语言模型）生成高级意图，例如“让行人让行”或“在卡车后并道”，而不会影响延迟。 HMVLM 引入了三项升级：(1) 具有嵌入式 4s 自我运动学历史的选择性五视图提示，(2) 多阶段思想链 (CoT) 提示，强制执行场景理解 -> 驾驶决策 -> 轨迹推理推理流程，以及 (3) 基于样条的轨迹后处理，消除后期抖动和急转弯。这些升级在 Waymo 开放数据集上进行训练，使 HMVLM 的评分者反馈分数 (RFS) 达到 7.7367，在 2025 年基于 Waymo 视觉的端到端 (E2E) 驾驶挑战赛中获得第二名，超出公共基线 2.77% ...

0 0 0 0 2025/11/18 arXiv:2506.05883v1 chenlei

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

视觉语言模型 (VLM) 擅长高级场景理解，但在需要精确定位的细粒度感知任务上表现不佳。这种失败源于根本性的不匹配，因为对于以语言为中心的架构来说，生成精确的数字坐标是一项具有挑战性的任务。在本文中，我们介绍了 VLM-FO1，这是一种新颖的框架，它通过将以对象为中心的感知从脆弱的坐标生成问题重新构建为鲁棒的特征检索任务来克服这一限制。我们的方法作为即插即用模块运行，可与任何预先训练的 VLM 集成。它利用具有双视觉编码器的混合细粒度区域编码器（HFRE）来生成富含语义和空间细节的强大区域标记。然后，基于标记的参考系统使 LLM 能够无缝推理这些特定视觉区域中的基础语言。实验表明，VLM-FO1 在各种基准测试中实现了最先进的性能，展示了在对象接地、区域生成理解和视觉区域推理方面的卓越能力。至关重要的是，我们的两阶段训练策略确保在不损害基础模型的一般视觉理解能力的情况下实现这些感知增益。 VLM-FO1 为构建感知感知 VLM 建立了有效且灵活的范例，弥合了高级推理和细粒度视觉基础之间的差距 ...

0 0 0 0 2025/11/13 arXiv:2509.25916v1 chenlei

Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matching For End-to-End Autonomous Driving

规划是端到端自动驾驶的关键组成部分。然而，流行的模仿学习方法经常遭受模式崩溃的困扰，无法产生多样化的轨迹假设。与此同时，现有的生成方法很难将关键的安全和物理约束直接纳入生成过程，因此需要额外的优化阶段来完善其输出。为了解决这些限制，我们提出了 CATG，这是一种利用约束流匹配的新颖规划框架。具体来说，CATG 明确地模拟了流量匹配过程，这本质上减轻了模式崩溃，并允许来自各种调节信号的灵活指导。我们的主要贡献是直接在流量匹配过程中直接施加显式约束，确保生成的轨迹遵守重要的安全和运动学规则。其次，CATG 在生成过程中将驾驶攻击性参数化为控制信号，从而能够精确操纵轨迹风格。值得注意的是，在 NavSim v2 挑战赛中，CATG 以 EPDMS 得分 51.31 获得第二名，并荣获创新奖 ...

0 0 0 0 2025/11/10 arXiv:2510.26292v1 chenlei

A Survey on Multimodal Large Language Models

HMVLM: Multistage Reasoning-Enhanced Vision-Language Model for Long-Tailed Driving Scenarios

VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs

Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matching For End-to-End Autonomous Driving

RAP: 3D Rasterization Augmented End-to-End Planning

DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment

EvaDrive: Evolutionary Adversarial Policy Optimization for End-to-End Autonomous Driving

BEV-VLM: Trajectory Planning via Unified BEV Abstraction

ImageBind: One Embedding Space To Bind Them All

CANDoSA: A Hardware Performance Counter-Based Intrusion Detection System for DoS Attacks on Automotive CAN bus