通过行为预测环境变化的世界模型对于具有强泛化性的自动驾驶模型至关重要。流行的驾驶世界模型主要基于视频预测模型。尽管这些模型可以使用先进的基于扩散的生成器生成高保真视频序列,但它们受到预测持续时间和整体泛化能力的限制。在本文中,我们探索通过将生成损失与 MAE 风格的特征级上下文学习相结合来解决这个问题。特别是,我们通过三个关键设计实例化了该目标:(1)通过额外掩模构建任务训练的更具可扩展性的扩散 Transformer (DiT)结构。 (2)我们设计了与扩散相关的掩模标记来处理掩模重建和生成扩散过程之间的模糊关系。 (3)我们通过利用行式掩码来转移自注意力而不是 MAE 中的掩码自注意力,将掩码构建任务扩展到时空域。然后,我们采用行方向交叉视图模块来与该掩模设计对齐。基于上述改进,我们提出了MaskGWM:一种以视频掩模重建体现的通用驱动世界模型。我们的模型包含两个变体:MaskGWM-long,专注于长范围预测,以及MaskGWM-mview,致力于多视图生成。标准基准的综合实验验证了所提方法的有效性,其中包括Nuscene数据集的正常验证、OpenDV-2K数据集的长期推出和Waymo数据集的零样本验证。这些数据集的定量指标表明我们的方法显着改进了最先进的驾驶世界模型 ...

0 0 0 0 2026/01/02 arXiv:2502.11663v1 liuyt6

随着模型大小及其部署规模的增长,其庞大的规模给基础设施带来了负担,需要更多的网络和更多的存储来适应这些需求。虽然有大量的模型压缩文献删除了部分模型权重以加快推理速度,但我们研究了一种更传统的压缩类型,即以紧凑形式表示模型,并与解压缩算法相结合,将模型恢复到原始形式和大小,即无损压缩。我们提出 ZipNN 是一种专为神经网络量身定制的无损压缩。令人有些惊讶的是,我们表明特定的无损压缩可以在流行模型上显着减少网络和存储,通常节省 33%,有时减少超过 50% 的模型大小。我们研究了模型可压缩性的来源,并引入了为模型量身定制的专门压缩变体,以进一步提高压缩的有效性。在流行模型(例如 Llama 3)上,ZipNN 的空间节省效果比普通压缩高出 17% 以上,同时压缩和解压缩速度也提高了 62%。我们估计,这些方法每月可以节省从 Hugging Face 等大型模型中心下载的网络流量超过 1 ExaByte ...

0 0 0 0 2026/01/02 arXiv:2411.05239v2 wangjun

虽然OneRec系列成功地将碎片化的推荐流程统一为端到端的生成框架,但推荐系统和通用智能之间仍然存在巨大差距。受孤立数据的限制,他们作为领域专家运作——精通模式匹配,但缺乏世界知识、推理能力和指令遵循。由于缺乏评估此类集成功能的整体基准,这一限制进一步加剧。为了解决这个问题,我们的贡献是: 1) RecIF Bench 和开放数据:我们提出了 RecIF-Bench,这是一个涵盖 8 个不同任务的整体基准,可彻底评估从基本预测到复杂推理的能力。同时,我们发布了包含 160,000 位用户的 9600 万次交互的海量训练数据集,以促进可重复的研究。 2) 框架和扩展:为了确保完全的可重复性,我们开源了我们的综合训练管道,包括数据处理、联合预训练和训练后。利用这个框架,我们证明了推荐功能可以可预测地扩展,同时减少对一般知识的灾难性遗忘。 3) OneRec-Foundation:我们发布了 OneRec Foundation(1.7B 和 8B),这是一系列模型,在 RecIF-Bench 中的所有任务中建立了新的最先进 (SOTA) 结果。此外,当转移到亚马逊基准时,我们的模型超越了最强的基线,在 10 个不同数据集的 Recall@10 中平均提高了 26.8%(图 1)。这项工作标志着朝着构建真正的智能推荐系统迈出了一步。尽管如此,实现这一愿景面临着重大的技术和理论挑战,凸显了在这一有前景的方向上更广泛的研究参与的必要性 ...

0 0 0 0 2026/01/01 arXiv:2512.24762v1 ohowandanliao

可视化在概念和信息的有效交流中发挥着至关重要的作用。推理和检索增强生成方面的最新进展使大型语言模型 (LLM) 能够进行深入研究并生成综合报告。尽管取得了进展,但现有的深度研究框架主要侧重于生成纯文本内容,而对交错文本和可视化的自动生成尚未进行充分探索 ...

0 0 0 0 2026/01/01 arXiv:2506.02454v3 13766783701

基于视频的大语言模型 (VideoLLM) 的最新发展,通过将视频特征以及在某些情况下的音频特征与大语言模型 (LLM) 对齐,显着改进了视频摘要。这些 VideoLLM 中的每一个都具有独特的优点和缺点。最近的许多方法都需要进行广泛的微调来克服这些模型的局限性,这可能会占用大量资源。在这项工作中,我们观察到一种 VideoLLM 的优势可以弥补另一种 VideoLLM 的劣势。利用这一见解,我们提出了一种受专家混合(MoE)范式启发的新颖视频摘要框架,该框架作为推理时间算法运行,不需要任何形式的微调。我们的方法集成了多个 VideoLLM 以生成全面且连贯的文本摘要。它有效地结合了视觉和音频内容,提供详细的背景描述,并擅长识别关键帧,与仅依赖视觉信息的传统计算机视觉方法相比,这使得检索具有更多语义意义,并​​且无需额外的微调。此外,生成的摘要通过关键帧选择或与文本到图像模型相结合,增强了下游任务(例如摘要视频生成)的性能。我们的语言驱动方法为传统方法提供了语义丰富的替代方案,并提供了合并更新的 VideoLLM 的灵活性,从而增强了视频摘要任务的适应性和性能 ...

0 0 0 0 2026/01/01 arXiv:2410.04511v1 13766783701

由于有限的上下文,现有的大型视频模型(LVLM)难以正确理解长时间的视频。为了解决这一问题,长篇文化LVLM和使用基于GPT的代理的微调已成为有前途的解决方案。但是,微调LVLM需要广泛的高质量数据和大量的GPU资源,而基于GPT的代理将依靠专有模型(e ...

0 0 0 0 2026/01/01 arXiv:2411.13093v4 13766783701

由于固定的上下文窗口和弱长期依赖建模,多模式大型语言模型(MLLM)与长视频斗争。视频的现有检索效果生成(RAG)方法使用静态检索策略,从而导致效率低下,以实现简单的查询和复杂任务的信息丢失。为了解决这个问题,我们提出了Adavideorag,这是一个新颖的框架,该框架使用轻量级的意图分类器,基于查询复杂性动态调整检索粒度 ...

0 0 0 0 2026/01/01 arXiv:2506.13589v3 13766783701

最近的研究表明,选择信息丰富且相关的视频帧可以显着提高视频大语言模型(Video-LLM)的性能。当前的方法,例如减少帧间冗余,采用单独的模型进行图像文本相关性评估,或利用时间视频基础进行事件定位,基本上采用无监督学习范式,但它们很难解决长视频理解中的复杂场景。我们提出了视频指导时间接地(VideoITG),具有与用户指令一致的定制帧采样。 VideoITG 的核心是 VidThinker 管道,这是一个明确模仿人类注释过程的自动注释框架。首先,它根据指令生成详细的剪辑级字幕;然后,通过指令引导推理检索相关视频片段;最后,它执行细粒度的帧选择以查明信息最丰富的视觉证据。利用 VidThinker,我们构建了 VideoITG-40K 数据集,其中包含 40K 视频和 500K 指示时间基础注释。然后,我们设计了一个即插即用的 VideoITG 模型,该模型利用 Video-LLM 的视觉语言对齐和推理能力,以判别方式进行有效的帧选择。与Video-LLM相结合,VideoITG在多个多模态视频理解基准测试中实现了一致的性能改进,显示了其在视频理解方面的优越性和巨大潜力 ...

0 0 0 0 2026/01/01 arXiv:2507.13353v1 13766783701

长期的视频理解给多模式大型语言模型(MLLM)带来了重大挑战,主要是由于巨大的数据量表。一个至关重要且广泛采用的策略,可以使此任务计算可处理,这是钥匙帧检索,该检索旨在识别一组稀疏的视频框架集,这些视频帧最为特定的文本查询。但是,这种方法的疗效受到文本查询和视觉内容之间的多模式对齐的阻碍,并且无法捕获精确推理所需的复杂的时间语义信息 ...

0 0 0 0 2026/01/01 arXiv:2508.06869v3 13766783701

事件摄像机将事件流输出为具有微秒级时间分辨率的稀疏异步数据,从而实现低延迟和高动态范围的视觉感知。虽然现有的多模态大语言模型 (MLLM) 在理解和分析 RGB 视频内容方面取得了巨大成功,但它们要么无法有效解释事件流,要么仍然受限于非常短的序列。在本文中,我们介绍了 LET-US,这是一个用于长事件流文本理解的框架,它采用自适应压缩机制来减少输入事件的数量,同时保留关键的视觉细节。因此,LET-US 在扩展事件序列的跨模式推理理解方面建立了一个新领域。为了弥合事件流和文本表示之间巨大的模态差距,我们采用了两阶段优化范例,逐步使我们的模型具备解释基于事件的场景的能力。为了处理长事件流中固有的大量时间信息,我们利用文本引导的跨模式查询来减少特征,并通过分层聚类和相似性计算来增强,以提取最具代表性的事件特征。此外,我们策划并构建了一个大规模的事件文本对齐数据集来训练我们的模型,从而在 LLM 嵌入空间内实现事件特征的更紧密对齐。我们还开发了一个涵盖各种任务的综合基准——推理、字幕、分类、时间定位和时刻检索。实验结果表明,LET-US 在长时间事件流的描述​​准确性和语义理解方面均优于先前最先进的 MLLM。所有数据集、代码和模型都将公开 ...

0 0 0 0 2026/01/01 arXiv:2508.07401v1 13766783701