训练大型 Transformer 模型是现代人工智能最重要的计算挑战之一。在本文中,我们展示了如何通过减少激活重新计算来显着加速大型 Transformer 模型的训练。激活重新计算通常用于解决内存容量限制。传统上,它们不是存储反向传播的激活,而是重新计算,这节省了内存,但增加了冗余计算。在这项工作中,我们证明了大部分冗余计算是不必要的,因为我们可以在没有它的情况下充分减少内存消耗。我们提出了两种新颖但非常简单的技术:序列并行性和选择性激活重新计算。与张量并行相结合,这些技术几乎消除了重新计算激活的需要。我们在参数规模高达一万亿的语言模型上评估了我们的方法,结果表明我们的方法将激活内存减少了 5 倍,同时将激活重新计算的执行时间开销减少了 90% 以上。例如,在 2240 个 NVIDIA A100 GPU 上训练 530B 参数 GPT-3 样式模型时,我们实现了 54.2% 的模型触发器利用率,这比使用重新计算实现的 42.1% 快了 29%。我们的实施将在 Megatron-LM 和 NeMo-Megatron 中提供 ...
在本文中,我们介绍了 FITS,一种轻量级但功能强大的时间序列分析模型。与直接处理原始时域数据的现有模型不同,FITS 的运行原理是可以通过复频域中的插值来操纵时间序列。通过丢弃对时间序列数据影响可以忽略不计的高频成分,FITS 的性能可与时间序列预测和异常检测任务的最先进模型相媲美,同时具有仅约 10k$ 参数的非常紧凑的尺寸。这种轻量级模型可以轻松训练并部署在边缘设备中,为各种应用创造机会。该代码位于:\url{此 https URL} ...
扩散模型的最新进展使得高质量的视频生成和编辑成为可能,但具有一致视频内容的精确重新照明尚未得到探索,这对于塑造场景氛围和观众注意力至关重要。由于文本在描述光照细节方面的固有局限性以及对光照相关提示的预训练不足,主流的文本转视频(T2V)模型缺乏细粒度的光照控制。此外,构建高质量的重新照明训练数据具有挑战性,因为现实世界的可控照明数据很少。为了解决这些问题,我们提出了 RelightMaster,这是一种用于精确且可控的视频重新照明的新颖框架。首先,我们构建 RelightVideo,这是第一个基于虚幻引擎在不同精确光照条件下具有相同动态内容的数据集。然后,我们介绍多平面光图像(MPLI),这是一种受多平面图像(MPI)启发的新颖视觉提示。 MPLI 通过 K 深度对齐平面对照明进行建模,代表 3D 光源位置、强度和颜色,同时支持多源场景并推广到不可见的灯光设置。第三,我们设计了一个光图像适配器,将 MPLI 无缝注入到预先训练的视频扩散 Transformer (DiT) 中:它通过预先训练的视频 VAE 压缩 MPLI,并将潜在光特征注入到 DiT 块中,利用基本模型的生成先验,而不会发生灾难性遗忘。实验表明,RelightMaster 可以生成物理上合理的光照和阴影,并保留原始场景内容。可以通过此 https URL 获取演示 ...
大型语言模型 (LLM) 最近在多种模式的语音识别方面取得了令人印象深刻的成果,包括听觉语音识别 (ASR)、视觉语音识别 (VSR) 和视听语音识别 (AVSR)。尽管取得了这些进展,当前基于 LLM 的方法通常独立地处理每个任务,训练单独的模型,从而提高计算和部署资源的使用,同时缺少潜在的跨任务协同效应。它们还依赖于固定速率的 Token 压缩,这限制了平衡准确性和效率的灵活性。这些限制突出表明需要一个能够支持 ASR、VSR 和 AVSR 同时实现弹性推理的统一框架。为此,我们推出了 Omni-AVSR,这是一种统一的视听 LLM,它将高效的多粒度训练与参数高效的适应相结合。具体来说,我们采用俄罗斯套娃表示学习范式来有效地跨多个音频和视觉粒度进行训练,减少其固有的训练资源使用。此外,我们探索了三种基于 LoRA 的策略,以适应主干 LLM 、平衡共享和特定任务的专业化。 LRS2 和 LRS3 上的实验表明,Omni-AVSR 实现了与最先进的基线相当或更高的准确性,同时以大幅降低的训练和部署资源使用来训练单个模型。该模型在声学噪声下也保持稳健,我们分析了其随着 LLM 规模增加的扩展行为,为性能和效率之间的权衡提供了见解 ...
文本到 SQL 的最新进展在静态单轮任务中取得了很好的成果,其中模型从自然语言问题生成 SQL 查询。然而,这些系统在现实世界的交互场景中存在不足,因为用户意图不断变化,查询必须经过多次改进。在金融和业务分析等应用程序中,用户根据中间结果迭代地调整查询约束或维度。为了评估这种动态功能,我们引入了 DySQL-Bench,这是一个在不断变化的用户交互下评估模型性能的基准。与之前手动管理的数据集不同,DySQL-Bench 是通过任务合成和验证的自动化两阶段管道构建的。从原始数据库表派生的结构化树表示指导基于 LLM 的任务生成,然后是面向交互的过滤和专家验证。人工评估确认合成数据 100% 正确。我们进一步提出了一个多轮评估框架,模拟 LLM 模拟用户、测试模型和可执行数据库之间的真实交互。随着用户意图的变化,模型必须调整其推理和 SQL 生成。 DySQL-Bench 涵盖 BIRD 和 Spider 2 数据库的 13 个领域,总计 1,072 个任务。即使 GPT-4o 的整体准确率也仅为 58.34%,在 Pass@5 指标上的准确率仅为 23.81%,这凸显了基准测试的难度。所有代码和数据均在此 https URL 发布 ...
将自然语言转换为 SQL (Test2SQL) 是自然语言理解和结构化数据访问交叉领域的一项长期挑战。虽然大型语言模型 (LLM) 显着提高了 SQL 生成的流畅性,但生成正确且可执行的 SQL(尤其是复杂查询)仍然是一个瓶颈。我们推出 Arctic-Text2SQL-R1,这是一个强化学习 (RL) 框架和模型系列,旨在使用仅基于执行正确性的轻量级奖励信号生成准确的可执行 SQL ...
事实证明,自我监督学习(SSL)在各种语音任务中非常有用。然而,这些方法通常对数据、内存和计算资源要求很高。基于 BERT 的随机投影量化器语音预训练 (BEST-RQ) 是一种 SSL 方法,在自动语音识别 (ASR) 上表现出出色的性能,同时比其他 SSL 方法(例如 wav2vec 2.0)更简单。尽管BEST-RQ具有出色的性能,但原始论文中缺乏细节,例如预训练中使用的GPU/TPU小时数,并且没有官方易于使用的开源实现。此外,除了 ASR 和语音翻译之外,BEST-RQ 尚未在其他下游任务上进行评估。在这项工作中,我们描述了随机投影量化器的重新实现,并在四个下游任务上与 wav2vec 2.0 进行了比较进行了初步研究。我们讨论实施的细节和差异。我们证明随机投影量化器可以实现与 wav2vec 2.0 类似的下游性能,同时将训练时间减少两倍以上 ...
虽然专门的人工智能模型擅长生成或理解等独立视频任务,但现实世界的应用程序需要结合这些功能的复杂、迭代的工作流程。为了弥补这一差距,我们引入了 UniVA,这是一个面向下一代视频通才的开源、全能的多代理框架,它将视频理解、分割、编辑和生成统一到有凝聚力的工作流程中。 UniVA 采用计划与行动双代理架构,可驱动高度自动化和主动的工作流程:计划代理解释用户意图并将其分解为结构化视频处理步骤,而执行代理通过模块化、基于 MCP 的工具服务器执行这些步骤(用于分析、生成、编辑、跟踪等)。通过分层多级记忆(全局知识、任务上下文和用户特定偏好),UniVA 维持长视野推理、上下文连续性和代理间通信,从而实现具有完全可追溯性的交互式和自我反思视频创建。这种设计支持迭代和任何条件视频工作流程(例如,文本/图像/视频条件生成$\rightarrow$多轮编辑$\rightarrow$对象分割$\rightarrow$合成合成),而这些工作流程以前用单一用途模型或整体视频语言模型实现起来很麻烦。我们还引入了 UniVA-Bench,这是一个涵盖理解、编辑、分割和生成的多步骤视频任务的基准套件,用于严格评估此类代理视频系统。 UniVA 和 UniVA-Bench 都是完全开源的,旨在促进下一代多模式人工智能系统的交互式、代理和通用视频智能的研究。 (此 https 网址) ...
尽管大规模预训练赋予模型语言和视觉推理能力,但由于缺乏基于 3D 世界的数据,提高其空间推理能力仍然具有挑战性。虽然人类可以通过 3D 图形手动创建身临其境的交互式世界,如 VR、游戏和机器人等应用中所见,但这一过程仍然是高度劳动密集型的。在本文中,我们提出了一种可扩展的方法来生成高质量的 3D 环境,该环境可以用作基础模型的训练数据。我们将 3D 环境构建重新定义为一个顺序决策问题,采用视觉语言模型 (VLM) 作为输出操作的策略,以共同制作 3D 环境的布局、材料、照明和资产。我们提出的框架 3D-Generalist 通过自我改进微调来训练 VLM 生成更加快速一致的 3D 环境。我们展示了 3D-Generalist 和所提出的训练策略在生成模拟就绪 3D 环境方面的有效性。此外,我们通过在生成的数据上预训练视觉基础模型来展示其在合成数据生成中的质量和可扩展性。在对下游任务的预训练模型进行微调后,我们表明它超越了在精心制作的合成数据上预训练的模型,并且接近使用大数量级的真实数据所获得的结果 ...
有效地安排点对点通信对于最大限度地减少分布式系统中的作业完成时间至关重要。 Incast 和落后流会减慢 All-to-All 传输速度;由于 NVLink 和以太网等技术之间的链路容量高度异构,GPU 集群带来了额外的落后挑战。相对于理论上的最佳传输,现有的调度程序都承受着较高的开销。经典的简单调度算法(例如 SpreadOut)无法最大限度地减少传输完成时间;现代基于优化的调度程序(例如 TACCL)可实现更好的完成时间,但计算时间可能比传输本身长几个数量级。本文介绍了 FLASH,它使用简单的多项式时间算法来安排接近最优的 All-to-All 传输。 FLASH 可以最大限度地利用服务器间的瓶颈网络,并在后台通过快速的服务器内网络在 GPU 之间重新整理数据,以缓解掉队的情况。我们证明,只要服务器内网络明显快于服务器间网络,FLASH 就可以接近最佳传输完成时间。我们实现了 FLASH 并证明其计算开销可以忽略不计,但它实现的传输完成时间与最先进的基于求解器的调度程序相当 ...