音频语言建模 (ALM) 领域的最新进展将音频理解和文本到音频生成作为单独的任务来处理。很少有研究试图统一这些任务——这是迈向高级多模态推理的重要一步。本文介绍了统一音频语言模型(UALM),旨在将音频理解、文本到音频生成和多模态推理统一在一个模型中。为了实现这一目标,我们首先提出 UALM-Gen,这是一种文本到音频的语言模型,可以直接预测音频标记,并且可以与最先进的基于扩散的模型相媲美。然后,我们使用适当的数据混合、训练方法和推理技术来证明,我们的单一 UALM 模型在音频理解、文本到音频生成和文本推理方面可与最先进的专业模型的质量相匹配。此外,我们还提出了 UALM-Reason,这是一种多模态推理模型,它在中间思维步骤中利用文本和音频来促进复杂的生成任务。据我们所知,这是跨模态生成推理音频研究中的首次演示,其有效性得到了主观评价的证实 ...
在这项工作中,我们的目标是开发有效的数据合成技术,自动合成多模态训练数据,以增强 MLLM 解决复杂的现实世界任务的能力。为此,我们提出了集体对抗数据合成(CADS),这是一种为 MLLM 合成高质量、多样化且具有挑战性的多模态数据的新颖且通用的方法。 CADS的核心思想是利用集体智慧确保高质量和多样化的生成,同时探索对抗性学习来合成具有挑战性的样本,从而有效推动模型改进。具体来说,CADS 以两个循环阶段运行,即集体对抗数据生成(CAD-Generate)和集体对抗数据判断(CAD-Judge)。 CAD-Generate 利用集体知识共同生成新的、多样化的多模式数据,而 CAD-Judge 则协作评估合成数据的质量。此外,CADS 引入了对抗性上下文优化机制来优化生成上下文,以鼓励具有挑战性和高价值的数据生成。通过 CADS,我们构建了 MMSynthetic-20K 并训练了我们的模型 R1-SyntheticVL,该模型在各种基准测试中表现出了卓越的性能 ...
训练后量化 (PTQ) 已成为一种有效的技术,通过压缩权重和激活而无需重新训练整个模型,从而减轻视觉语言模型 (VLM) 的大量计算和内存开销。现有的PTQ方法主要依赖于敏感或离群通道的静态识别和全局补偿,但它们往往忽略了这些重要通道在输入之间的分布差异,导致量化效果不理想。在这项工作中,我们观察到重要通道的分布和出现频率在不同模态和标记之间存在显着差异,即使在同一模态内也是如此。因此,我们提出 \textbf{Quant Experts (QE)},这是一种用于 VLM 量化的 Token 感知自适应误差补偿,具有混合专家。 QE 将重要渠道分为与 Token 无关和与 Token 相关的两类。对于前者,为大多数 Token 设计了共享专家,以使用低阶适配器补偿全局量化误差。对于后者,精心设计了包括多个路由低阶适配器的路由专家,以补偿与特定 Token 相关的局部量化误差。大量实验表明,QE 能够持续提高各种量化设置和模型规模(从 2B 到 70B 参数)的任务准确性,同时保持与全精度模型相当的性能 ...
思想链(CoT)提高了大型语言模型(LLM)的推理能力,并在复杂的推理任务中取得了优异的性能。然而,大多数 CoT 研究依赖于精心设计的人工注释理性链来促进 LLM 的学习,这给现实世界的应用带来了挑战,在现实世界中,无需理性链即可获得标记数据。本文提出了一种新策略Automate-CoT(使用思想链进行自动提示增强和选择),它可以通过从小型标记数据集中自动增强理性链,然后修剪低质量链来构建基于标签的机器生成的理性链候选池,从而绕过CoT的人类工程。最后,它通过采用方差减少的策略梯度策略来估计每个示例的重要性,从池中选择多个理由链的最佳组合进行 CoT 提示。 Automate-CoT 使 CoT 技术能够快速适应不同的任务。实验结果证明了我们方法的有效性,在算术推理(+2.7%)、常识推理(+3.4%)、符号推理(+3.2%)和非推理任务(+2.5%)上取得了有竞争力的结果。该代码可从此 https URL 获取 ...
从大规模驾驶演示中学习类人驾驶策略是有前途的,但规划的不确定性和非确定性使其具有挑战性。在这项工作中,为了应对不确定性问题,我们提出了VADv2,一种基于概率规划的端到端驾驶模型。 VADv2以流式方式将多视图图像序列作为输入,将传感器数据转换为环境 Token 嵌入,输出动作的概率分布,并对一个动作进行采样来控制车辆。仅使用摄像头传感器,VADv2 就能在 CARLA Town05 基准上实现最先进的闭环性能,显着优于所有现有方法。即使没有基于规则的包装器,它也能以完全端到端的方式稳定运行。此 https URL 提供了闭环演示 ...
我们提出了 MM-AU,一个用于多模态事故视频理解的新颖数据集。 MM-AU 包含 11,727 个野外自我视图事故视频,每个视频都具有时间对齐的文本描述。我们注释了超过 223 万个对象框和 58,650 对基于视频的事故原因,涵盖 58 个事故类别。 MM-AU 支持各种事故理解任务,特别是多模态视频扩散,以了解事故因果链以实现安全驾驶。通过 MM-AU,我们提出了用于安全驾驶感知的绑架事故视频理解框架 (AdVersa-SD)。 AdVersa-SD 通过以对象为中心的视频扩散 (OAVD) 方法执行视频扩散,该方法由溯因 CLIP 模型驱动。该模型涉及对比交互损失,以学习正常、接近事故、事故框架与相应文本描述的配对共现,例如事故原因、预防建议和事故类别。 OAVD在视频生成中固定原始帧背景内容的同时强制进行因果区域学习,以找到某些事故的主导因果链。大量实验验证了 AdVersa-SD 的溯因能力以及 OAVD 相对于最先进的扩散模型的优越性。此外,由于 AdVersa-SD 依赖于精确的物体和事故原因信息,我们还为物体检测和事故原因解答提供仔细的基准评估 ...
具有先进推理和工具使用能力的人工智能代理在深度搜索的网页浏览中表现出了令人印象深刻的性能。虽然 BrowseComp 等现有基准评估这些浏览能力,但它们主要关注文本信息,忽视了多模式内容的流行。为了弥补这一差距,我们引入了 MM-BrowseComp,这是一个新颖的基准,包含 224 个具有挑战性的手工制作问题,专门用于评估代理的多模式检索和推理能力。这些问题通常会在提示中包含图像,搜索和推理过程中遇到的关键信息也可能嵌入网页上的图像或视频中。因此,仅依赖文本的方法不足以满足我们的基准测试。此外,我们为每个问题提供了经过验证的清单,可以对多模式依赖关系和推理路径进行细粒度分析。我们对 MM-BrowseComp 上最先进模型的综合评估表明,即使像 OpenAI o3 这样带有工具的顶级模型也只能达到 29.02% 的准确率,这凸显了当前模型中多模态能力欠佳以及缺乏原生多模态推理 ...
信道预测是减少大规模多输入多输出(m-MIMO)系统中反馈或估计开销的有效方法。然而,由于模型失配误差或网络泛化问题,现有的信道预测方法缺乏精度。大型语言模型(LLM)展现了强大的建模和泛化能力,并已成功应用于跨模态任务,包括时间序列分析。利用LLM的表达能力,我们提出了一种预训练的LLM授权信道预测方法(LLM4CP),以基于历史上行链路CSI序列来预测未来下行链路信道状态信息(CSI)序列。我们对网络进行微调,同时冻结预训练的 LLM 的大部分参数,以实现更好的跨模态知识迁移。为了弥合通道数据和 LLM 特征空间之间的差距,预处理器、嵌入和输出模块是根据独特的通道特征专门定制的。仿真验证了该方法以较低的训练和推理成本在全样本、少样本和泛化测试上实现了 SOTA 预测性能 ...
交通事故给自动驾驶带来了复杂的挑战,通常具有不可预测的场景,阻碍了系统的准确解释和响应。然而,由于缺乏针对事故场景的训练数据,现有的方法在阐明事故原因和提出预防措施方面存在不足。在这项工作中,我们介绍了 AVD2(事故视频描述的事故视频扩散),这是一种新颖的框架,通过生成与详细的自然语言描述和推理相一致的事故视频来增强事故场景的理解,从而形成贡献的 EMM-AU(增强型多模态事故视频理解)数据集。实证结果表明,EMM-AU 数据集的集成在自动化指标和人工评估方面建立了最先进的性能,显着推进了事故分析和预防领域。项目资源可在此 https URL 获取 ...
在开放环境中开发通用机器人智能需要持续的技能学习。最近的视觉-语言-动作(VLA)模型利用大量预训练数据来支持不同的操作任务,但它们仍然严重依赖于特定于任务的微调,揭示了持续学习能力的缺乏。现有的持续学习方法也需要大量资源才能扩展到 VLA 模型。我们提出了 Stellar VLA,一个知识驱动的持续学习框架,有两个变体:T-Stellar,以任务为中心的知识空间建模,以及 TS-Stellar,捕获分层任务技能结构。 Stellar VLA 通过任务潜在表示和知识空间的联合学习来实现自我监督的知识演化,从而减少注释需求。知识引导的专家路由提供任务专门化,无需额外的网络参数,从而降低了培训开销。 LIBERO 基准和实际任务的实验表明,相对于基准,最终成功率平均提高了 50% 以上。 TS-Stellar 在复杂的动作推理方面更加出色,深入的分析验证了有效的知识保留和发现。我们的代码很快就会发布 ...