近年来,用于视频文本检索的视觉语言对齐学习引起了广泛关注。现有的大多数方法要么将图像文本预训练模型的知识转移到视频文本检索任务中,而没有充分探索视频的多模态信息,要么在没有明确指导的情况下简单地以强力方式融合多模态特征。在本文中,我们通过标签以显式的方式集成多模态信息,并使用标签作为锚点以更好地进行视频文本对齐。利用各种预训练的专家来提取多种模态的信息,包括物体、人、运动、音频等。为了充分利用这些信息,我们提出了TABLE(TAgging Before aLignmEnt)网络,该网络由视觉编码器、标签编码器、文本编码器和标签引导跨模态编码器组成,用于联合编码多帧视觉特征和多模态标签信息。此外,为了加强视频和文本之间的交互,我们构建了一个具有[视觉、标签、文本]三元组输入的联合跨模态编码器,并执行两个额外的监督任务:视频文本匹配(VTM)和掩码语言建模(MLM)。大量的实验结果表明,TABLE 模型能够在各种视频文本检索基准上实现 State-Of-The-Art (SOTA) 性能,包括 MSR-VTT、MSVD、LSMDC 和 DiDeMo ...
尽管ML模型培训和推断都是GPU密集型的,但基于CPU的数据处理通常是瓶颈。基于批处理或流处理模型的分布式数据处理系统假定均匀的资源要求。他们在基于CPU的计算方面表现出色,但要么不足以利用异质资源,要么对失败和重新配置施加了高度的开销 ...
最近,视觉变形金刚变得非常流行。然而,在许多应用程序中部署它们的计算成本很高,部分原因是注意力模块中存在 Softmax 层。我们引入了一个简单但有效的、无 Softmax 的注意力块 SimA,它使用简单的 $\ell_1$-norm 来标准化查询和关键矩阵,而不是使用 Softmax 层。然后,SimA中的注意力块是三个矩阵的简单乘法,因此SimA可以在测试时动态改变计算的顺序,以实现对 Token 数量或通道数量的线性计算。我们凭经验表明,SimA 应用于 Transformer 的三种 SOTA 变体 DeiT、XCiT 和 CvT,与 SOTA 模型相比,其精度达到了同等水平,并且不需要 Softmax 层。有趣的是,将 SimA 从多头更改为单头对准确性的影响很小,这进一步简化了注意力模块。代码可在此处获取:此 https URL ...
多模态大语言模型(MLLM)的最新进展已经证明了视频理解的巨大潜力。然而,现有的基准无法全面评估跨音频和视觉模式的协同推理能力,常常忽略其中一种模式或以逻辑不一致的方式将它们集成。为了弥补这一差距,我们引入了 OmniVideoBench,这是一个大规模且严格设计的基准,致力于评估协同视听理解,重点强调模态互补性和逻辑一致性。具体来说,OmniVideoBench 包含 1000 个高质量的问答 (QA) 对,每个对都附有逐步推理轨迹注释,源自 628 个不同视频,从几秒到 30 分钟不等,并经过手动验证以保证完全正确性和唯一性。此外,OmniVideoBench 包含 13 种精心设计的问题类型,涵盖时间推理、空间定位、计数、因果推理、总结等,从而捕捉视频理解的基本挑战。在 OmniVideoBench 上对多个 MLLM 的评估揭示了模型性能与人类推理之间的明显差距,开源模型明显落后于闭源模型,这凸显了真正的视听推理的固有难度。我们将发布 OmniVideoBench,以促进具有更强、更通用推理能力的 MLLM 的发展 ...
前沿语言模型展现了强大的推理能力和远景工具使用能力。然而,现有的 RAG 系统无法利用这些功能。他们仍然依赖两种范例:(1)设计一种算法,在一次中检索段落并将它们连接到模型的输入中,或者(2)预定义工作流程并提示模型逐步执行。这两种范式都不允许模型参与检索决策,从而阻碍了模型改进的有效扩展。在本文中,我们介绍了 A-RAG,这是一种 Agentic RAG 框架,它直接向模型公开分层检索接口。 A-RAG 提供三种检索工具:关键字搜索、语义搜索和块读取,使代理能够跨多个粒度自适应地搜索和检索信息。对多个开放域 QA 基准的实验表明,A-RAG 在检索到的 Token 相当或更低的情况下始终优于现有方法,这表明 A-RAG 有效地利用了模型功能并动态适应不同的 RAG 任务。我们进一步系统地研究 A-RAG 如何随模型大小和测试时间计算进行扩展。我们将发布我们的代码和评估套件以促进未来的研究。代码和评估套件可从此 https URL 获取 ...
我们提出了Robomemory,这是一个以脑启发的多内存框架,用于物理体现系统中的终生学习,解决了现实世界中的关键挑战:连续学习,多模块记忆延迟,任务互相捕获和封闭环计划中的无限循环缓解。它以认知神经科学为基础,整合了四个核心模块:信息预处理器(丘脑状),终身体现的记忆系统(类似海马的记忆系统),闭环计划模块(前额叶loe叶),以及低级别的高级管理器(cerebellum light tim-light tim-light light light light Planne),以进行良好的学习和促进的学习。终身体现的内存系统是框架的中心,通过跨空间,时间,情节和语义suppoles的并行更新/检索来减轻复杂内存框架中的推理速度问题 ...
具有可验证奖励的强化学习(RLVR)已成为增强大型语言模型(LLM)推理能力的重要范例。然而,LLM 的熵通常在 RLVR 训练期间崩溃,导致过早收敛到次优局部最小值并阻碍进一步的性能提升。尽管已经提出了各种方法来减轻熵崩溃,但仍然缺乏对 RLVR 中熵的全面研究。为了弥补这一差距,我们进行了广泛的实验来研究使用 RLVR 训练的 LLM 的熵动态,并分析模型熵如何与各种基准的响应多样性、校准和性能相关。我们的结果确定了影响熵的三个关键因素:优化目标中的裁剪阈值、离策略更新的数量以及训练数据的多样性。此外,通过理论分析和实证验证,我们证明具有积极优势的 Token 是熵崩溃的主要驱动因素。受这一见解的启发,我们提出了正优势重新加权,这是一种简单而有效的方法,通过调整分配给 RLVR 训练期间具有正优势的 Token 的损失权重来调节模型熵,同时保持竞争性能 ...
随着大型语言模型 (LLM) 的不断扩展,部署越来越受到内存墙的瓶颈,从而促使向极低位量化的转变。然而,大多数量化感知训练(QAT)方法从训练开始就应用硬舍入和直通估计器(STE),这会过早地离散化优化景观,并导致潜在权重和量化权重之间持续的梯度不匹配,从而阻碍量化模型的有效优化。为了解决这个问题,我们提出了 Hestia,一种用于极低位 LLM 的 Hessian 引导的可微 QAT 框架,它用温度控制的 Softmax 松弛代替了刚性阶跃函数,以在训练早期保持梯度流,同时逐渐强化量化。此外,Hestia 利用张量 Hessian 迹度量作为轻量级曲率信号来驱动细粒度温度退火,从而实现整个模型的灵敏度感知离散化。对 Llama-3.2 的评估表明,Hestia 始终优于现有的三元 QAT 基线,1B 和 3B 模型的平均零样本改进为 5.39% 和 4.34%。这些结果表明 Hessian 引导的松弛有效地恢复了表征能力,为 1.58 位 LLM 建立了更稳健的训练路径。该代码可从此 https URL 获取 ...
虽然神经表示和生成模型的最新进展彻底改变了 3D 内容创建,但该领域仍然受到重大数据处理瓶颈的限制。为了解决这个问题,我们推出了 HY3D-Bench,这是一个开源生态系统,旨在为 3D 生成建立统一、高质量的基础。我们的贡(2)引入结构化的零件级分解,为细粒度感知和可控编辑提供必要的粒度; (3) 我们通过可扩展的 AIGC 合成管道弥合现实世界的分配差距,贡献 125,000 种合成资产,以增强长尾类别的多样性。通过 Hunyuan3D-2.1-Small 的训练进行了实证验证,HY3D-Bench 实现了对强大数据资源的民主化访问,旨在促进 3D 感知、机器人技术和数字内容创建方面的创新 ...
我们研究人工智能生成内容的拍卖机制,重点关注广告创意生成等应用。在我们的模型中,代理对随机生成的内容的偏好被编码为大语言模型(LLM)。我们提出了一种在逐个 Token 的基础上运行的拍卖格式,并允许 LLM 代理通过单维出价影响内容创建。我们制定了两个理想的激励属性,并证明它们与输出聚合的单调性条件等价。即使没有明确的代理评估功能,这种等价性也可以实现第二价格规则设计。我们的设计得到了公开的 LLM 演示的支持 ...