虽然OneRec系列成功地将碎片化的推荐流程统一为端到端的生成框架,但推荐系统和通用智能之间仍然存在巨大差距。受孤立数据的限制,他们作为领域专家运作——精通模式匹配,但缺乏世界知识、推理能力和指令遵循。由于缺乏评估此类集成功能的整体基准,这一限制进一步加剧。为了解决这个问题,我们的贡献是: 1) RecIF Bench 和开放数据:我们提出了 RecIF-Bench,这是一个涵盖 8 个不同任务的整体基准,可彻底评估从基本预测到复杂推理的能力。同时,我们发布了包含 160,000 位用户的 9600 万次交互的海量训练数据集,以促进可重复的研究。 2) 框架和扩展:为了确保完全的可重复性,我们开源了我们的综合训练管道,包括数据处理、联合预训练和训练后。利用这个框架,我们证明了推荐功能可以可预测地扩展,同时减少对一般知识的灾难性遗忘。 3) OneRec-Foundation:我们发布了 OneRec Foundation(1.7B 和 8B),这是一系列模型,在 RecIF-Bench 中的所有任务中建立了新的最先进 (SOTA) 结果。此外,当转移到亚马逊基准时,我们的模型超越了最强的基线,在 10 个不同数据集的 Recall@10 中平均提高了 26.8%(图 1)。这项工作标志着朝着构建真正的智能推荐系统迈出了一步。尽管如此,实现这一愿景面临着重大的技术和理论挑战,凸显了在这一有前景的方向上更广泛的研究参与的必要性 ...
可视化在概念和信息的有效交流中发挥着至关重要的作用。推理和检索增强生成方面的最新进展使大型语言模型 (LLM) 能够进行深入研究并生成综合报告。尽管取得了进展,但现有的深度研究框架主要侧重于生成纯文本内容,而对交错文本和可视化的自动生成尚未进行充分探索 ...
基于视频的大语言模型 (VideoLLM) 的最新发展,通过将视频特征以及在某些情况下的音频特征与大语言模型 (LLM) 对齐,显着改进了视频摘要。这些 VideoLLM 中的每一个都具有独特的优点和缺点。最近的许多方法都需要进行广泛的微调来克服这些模型的局限性,这可能会占用大量资源。在这项工作中,我们观察到一种 VideoLLM 的优势可以弥补另一种 VideoLLM 的劣势。利用这一见解,我们提出了一种受专家混合(MoE)范式启发的新颖视频摘要框架,该框架作为推理时间算法运行,不需要任何形式的微调。我们的方法集成了多个 VideoLLM 以生成全面且连贯的文本摘要。它有效地结合了视觉和音频内容,提供详细的背景描述,并擅长识别关键帧,与仅依赖视觉信息的传统计算机视觉方法相比,这使得检索具有更多语义意义,并且无需额外的微调。此外,生成的摘要通过关键帧选择或与文本到图像模型相结合,增强了下游任务(例如摘要视频生成)的性能。我们的语言驱动方法为传统方法提供了语义丰富的替代方案,并提供了合并更新的 VideoLLM 的灵活性,从而增强了视频摘要任务的适应性和性能 ...
由于有限的上下文,现有的大型视频模型(LVLM)难以正确理解长时间的视频。为了解决这一问题,长篇文化LVLM和使用基于GPT的代理的微调已成为有前途的解决方案。但是,微调LVLM需要广泛的高质量数据和大量的GPU资源,而基于GPT的代理将依靠专有模型(e ...
由于固定的上下文窗口和弱长期依赖建模,多模式大型语言模型(MLLM)与长视频斗争。视频的现有检索效果生成(RAG)方法使用静态检索策略,从而导致效率低下,以实现简单的查询和复杂任务的信息丢失。为了解决这个问题,我们提出了Adavideorag,这是一个新颖的框架,该框架使用轻量级的意图分类器,基于查询复杂性动态调整检索粒度 ...
最近的研究表明,选择信息丰富且相关的视频帧可以显着提高视频大语言模型(Video-LLM)的性能。当前的方法,例如减少帧间冗余,采用单独的模型进行图像文本相关性评估,或利用时间视频基础进行事件定位,基本上采用无监督学习范式,但它们很难解决长视频理解中的复杂场景。我们提出了视频指导时间接地(VideoITG),具有与用户指令一致的定制帧采样。 VideoITG 的核心是 VidThinker 管道,这是一个明确模仿人类注释过程的自动注释框架。首先,它根据指令生成详细的剪辑级字幕;然后,通过指令引导推理检索相关视频片段;最后,它执行细粒度的帧选择以查明信息最丰富的视觉证据。利用 VidThinker,我们构建了 VideoITG-40K 数据集,其中包含 40K 视频和 500K 指示时间基础注释。然后,我们设计了一个即插即用的 VideoITG 模型,该模型利用 Video-LLM 的视觉语言对齐和推理能力,以判别方式进行有效的帧选择。与Video-LLM相结合,VideoITG在多个多模态视频理解基准测试中实现了一致的性能改进,显示了其在视频理解方面的优越性和巨大潜力 ...
长期的视频理解给多模式大型语言模型(MLLM)带来了重大挑战,主要是由于巨大的数据量表。一个至关重要且广泛采用的策略,可以使此任务计算可处理,这是钥匙帧检索,该检索旨在识别一组稀疏的视频框架集,这些视频帧最为特定的文本查询。但是,这种方法的疗效受到文本查询和视觉内容之间的多模式对齐的阻碍,并且无法捕获精确推理所需的复杂的时间语义信息 ...
事件摄像机将事件流输出为具有微秒级时间分辨率的稀疏异步数据,从而实现低延迟和高动态范围的视觉感知。虽然现有的多模态大语言模型 (MLLM) 在理解和分析 RGB 视频内容方面取得了巨大成功,但它们要么无法有效解释事件流,要么仍然受限于非常短的序列。在本文中,我们介绍了 LET-US,这是一个用于长事件流文本理解的框架,它采用自适应压缩机制来减少输入事件的数量,同时保留关键的视觉细节。因此,LET-US 在扩展事件序列的跨模式推理理解方面建立了一个新领域。为了弥合事件流和文本表示之间巨大的模态差距,我们采用了两阶段优化范例,逐步使我们的模型具备解释基于事件的场景的能力。为了处理长事件流中固有的大量时间信息,我们利用文本引导的跨模式查询来减少特征,并通过分层聚类和相似性计算来增强,以提取最具代表性的事件特征。此外,我们策划并构建了一个大规模的事件文本对齐数据集来训练我们的模型,从而在 LLM 嵌入空间内实现事件特征的更紧密对齐。我们还开发了一个涵盖各种任务的综合基准——推理、字幕、分类、时间定位和时刻检索。实验结果表明,LET-US 在长时间事件流的描述准确性和语义理解方面均优于先前最先进的 MLLM。所有数据集、代码和模型都将公开 ...
视频大语言模型(Video-LLM)擅长一般视频理解,但由于上下文窗口限制而难以处理长视频。因此,最近的方法侧重于关键帧检索,将冗长的视频压缩为一小组信息丰富的帧。尽管它们很实用,但这些方法将问题简化为静态文本图像匹配,忽略了对于捕获场景转换和上下文连续性至关重要的时空关系,并且可能会产生信息有限的冗余关键帧,从而削弱了准确视频问答所必需的显着线索。为了解决这些限制,我们引入了 Video-EM,这是一种受人类情景记忆原理启发的免训练框架,旨在促进稳健且基于上下文的推理。 Video-EM 没有将关键帧视为孤立的视觉实体,而是将它们显式地建模为按时间顺序排列的情景事件,捕获准确重建底层叙事所需的空间关系和时间动态。此外,该框架利用 LLM 的思想链 (CoT) 思维,迭代地识别情景记忆的最小但信息丰富的子集,从而使视频 LLM 能够高效、准确地回答问题。对 Video-MME、EgoSchema、HourVideo 和 LVBench 基准测试的广泛评估证实了 Video-EM 的优越性,它在使用更少的帧的情况下实现了极具竞争力的结果,性能比各自的基线提高了 4-9% ...
跨模式无人机导航仍然是机器人技术中的一项具有挑战性的任务,需要根据自然语言描述从大规模数据库中高效检索相关图像。 RoboSense 2025 Track 4 挑战赛解决了这一挑战,重点关注跨多个平台(无人机、卫星和地面摄像机)的稳健、自然语言引导的跨视图图像检索。当前的基线方法虽然对于初始检索有效,但通常难以实现文本查询和视觉内容之间的细粒度语义匹配,尤其是在复杂的航空场景中。为了应对这一挑战,我们提出了一种两阶段检索细化方法:标题引导检索系统(CGRS),它通过智能重新排名来增强基线粗排名。我们的方法首先利用基线模型来获得每个查询的前 20 张最相关图像的初始粗略排名。然后,我们使用视觉语言模型 (VLM) 为这些候选图像生成详细的说明文字,捕获其视觉内容的丰富语义描述。然后,将这些生成的标题用于多模态相似性计算框架,对原始文本查询进行细粒度的重新排序,从而有效地在视觉内容和自然语言描述之间建立语义桥梁。我们的方法在基线的基础上显着改进,在所有关键指标(Recall@1、Recall@5 和 Recall@10)上实现了一致的 5\% 改进。我们的方法在挑战中赢得了 TOP-2,展示了我们的语义细化策略在现实世界机器人导航场景中的实用价值 ...