扩散语言模型 (DLM) 在具有上下文示例的一般自然语言任务中显示出强大的潜力。然而,由于双向注意力机制,随着上下文长度的增加,DLM 会产生大量的计算成本。这项工作通过一个关键发现解决了这个问题:与自回归语言模型(ARLM)中的顺序生成不同,DLM 中的扩散生成范式允许在生成过程中 \textit{有效地动态调整上下文}。基于这一见解,我们提出了 \textbf{D}ynamic \textbf{I}n-Context \textbf{P}lanner (DIP),这是一种上下文优化方法,可以在生成过程中动态选择和插入上下文示例,而不是在提示中预先提供所有示例。结果显示,DIP 保持生成质量,同时比标准推理实现高达 12.9$\times$ 的推理加速,比 KV 缓存增强推理高达 1.17$\times$ ...
多模态大语言模型 (MLLM) 通过三阶段管道扩展了 LLM 的视觉理解:多模态预处理、视觉编码和 LLM 推理。虽然这些阶段增强了能力,但它们引入了严重的系统瓶颈。首先,多模态预处理(尤其是视频解码)通常在首次标记时间 (TTFT) 中占主导地位。大多数系统依赖于基于 CPU 的解码,这严重限制了吞吐量,而现有的基于 GPU 的方法优先考虑面向吞吐量的并行性,无法满足 MLLM 推理的延迟敏感要求。其次,视觉编码器是一个独立的计算密集型阶段,可生成视觉嵌入,无法与 LLM 预填充或解码共同批处理。这种异构性迫使阶段间阻塞并增加了 Token 生成延迟。即使部署在单独的 GPU 上,这些阶段也无法充分利用可用的计算和内存资源,从而降低总体利用率并限制系统吞吐量。为了应对这些挑战,我们提出了 FlashCodec 和 UnifiedServe,这两种互补的设计共同优化了端到端 MLLM 管道。 FlashCodec 通过协作多 GPU 视频解码加速多模式预处理阶段,减少解码延迟,同时保持高吞吐量。 UnifiedServe 通过在逻辑上解耦执行来优化视觉到文本和推理阶段,以消除阶段间阻塞,同时在物理上共享 GPU 资源,以最大限度地提高 GPU 系统利用率。通过仔细编排跨阶段的执行并最大程度地减少干扰,我们提出的 UnifiedServe Together 框架形成了一个端到端优化的堆栈,与最先进的系统相比,它可以服务最多 3.0$\time$ 的请求或执行 1.5$\time$ 更严格的 SLO,同时实现最高 4.4$\times$ 的吞吐量提高 ...
专家混合 (MoE) 架构通过次线性计算增加来扩展模型大小,但由于 KV 缓存和稀疏专家激活而受到内存密集型推理的影响。最近的分解专家并行 (DEP) 将注意力和专家分配给专用 GPU 组,但缺乏对共享专家和高效任务调度的支持,从而限制了性能。我们提出了 FinDEP,一种用于 DEP 的细粒度任务调度算法,可最大化任务重叠以提高 MoE 推理吞吐量。 FinDEP 引入了三项创新:1)将计算/通信划分为更小的任务以实现细粒度流水线;2)制定支持可变粒度和排序的调度优化;3)为这个大搜索空间开发高效的求解器。使用 DeepSeek-V2 和 Qwen3-MoE 在四个 GPU 系统上进行的实验表明,FinDEP 的吞吐量比之前的方法提高了 1.61 倍,在 32 个 GPU 系统上实现了 1.24 倍的加速 ...
大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中实现了最先进的准确度。然而,这种成功是以增加模型大小为代价的,这会导致额外的计算负担。专家混合 (MoE) 通过仅激活参数或“专家”的子集,将模型容量与计算解耦,从而克服了这一瓶颈。然而,这些模型需要这些专家与路由器进行联合预训练,并且不建模多步推理。相比之下,多智能体框架通过将复杂问题分解为模块化子任务来改进推理。然而,这些框架依赖于顺序的“计划--行动--观察”循环,这会引入显着的延迟。我们的工作 Comp-LLM 通过引入可组合推理框架来解决这些挑战,该框架通过显式子查询依赖图实现跨专家协作。 Comp-LLM 由三个组件组成:(1)子查询生成器,分解输入查询,使用嵌入相似性将每个子查询分配给适当的专家,并构建依赖图; (2) 查询执行器,处理图中的节点并根据依赖关系和资源限制识别并行机会; (3) 响应聚合器,将中间专家响应合成为连贯的最终答案。在多个基准测试中,Comp-LLM 比类似尺寸的整体 LLM 精度提高了 11.01%,同时模型尺寸减小了 1.67 倍--3.56 倍,并且相对于其系列中最大的模型没有显着退化。此外,与顺序子查询处理相比,Comp-LLM 的延迟时间缩短了 1.1 倍--1.7 倍 ...
除了 ChatGPT、GitHub Copilot 和 Cursor 等典型的生成应用程序之外,我们还观察到一个新兴趋势,即 LLM 越来越多地用于传统的判别性任务,例如推荐、信用验证和数据标记。这些新兴用例的关键特征是 LLM 仅生成单个输出 Token ,而不是任意长的 Token 序列。我们将此称为仅预填充工作负载。然而,由于现有的 LLM 引擎假定任意输出长度,因此它们无法利用仅预填充工作负载的独特属性。在本文中,我们提出了 PrefillOnly,这是第一个 LLM 推理引擎,它通过完全采用仅预填充工作负载的属性来提高推理吞吐量和延迟。首先,由于它只生成一个 Token ,PrefillOnly 只需要存储最后计算层的 KV 缓存,而不是所有层的 KV 缓存。这大大减少了 LLM 推理的 GPU 内存占用,并允许处理长输入,而无需使用降低吞吐量的解决方案,例如跨 GPU KV 缓存并行化。其次,由于输出长度是固定的,而不是任意的,PrefillOnly 可以在每个仅预填充请求开始之前精确确定其作业完成时间(JCT)。这可以实现有效的 JCT 感知调度策略,例如最短的剩余作业优先。 PrefillOnly 每秒可以处理多达 4 倍大的查询,而不会增加平均延迟和 P99 延迟 ...
我们提出了一种新的大规模加速器编排层的设计。 Our system, Pathways, is explicitly designed to enable exploration of new systems and ML research ideas, while retaining state of the art performance for current models. Pathways 使用异步运算符的分片数据流图来消费和生成 future,并在数千个加速器上高效地组调度异构并行计算,同时协调专用互连上的数据传输。 Pathways makes use of a novel asynchronous distributed dataflow design that lets the control plane execute in parallel despite dependencies in the data plane.这种设计经过精心的工程设计,使得 Pathways 能够采用单控制器模型,从而更容易地表达复杂的新并行模式。我们证明,当在 2048 个 TPU 上运行 SPMD 计算时,Pathways 可以实现与最先进的系统同等的性能(约 100% 加速器利用率),同时还提供与跨 16 个阶段进行管道传输或通过数据中心网络连接的两个加速器岛进行分片的 Transformer 模型的 SPMD 情况相当的吞吐量 ...
在扩散变换器(DiT)模型中,特别是对于视频生成,由于序列长度长和二次复杂度,注意力延迟是一个主要瓶颈。我们发现注意力权重可以分为两部分:一小部分具有高排名的大权重和其余具有非常低排名的权重。这自然建议对第一部分应用稀疏加速,对第二部分应用低阶加速。基于这一发现,我们提出了 SLA(稀疏线性注意力),这是一种可训练的注意力方法,融合稀疏和线性注意力来加速扩散模型。 SLA 将注意力权重分为关键、边际和可忽略类别,对关键权重应用 O(N^2) 注意力,对边际权重应用 O(N) 注意力,并跳过可忽略的权重。 SLA 将这些计算组合到单个 GPU 内核中,并支持前向和后向传递。只需使用 SLA 进行几个微调步骤,DiT 模型即可将注意力计算量减少 20 倍,从而在不损失生成质量的情况下实现显着加速。实验表明,SLA 在不降低端到端生成质量的情况下将注意力计算减少了 95%,优于基线方法。此外,我们为 SLA 实现了高效的 GPU 内核,在 Wan2.1-1.3B 上,注意力计算速度提高了 13.7 倍,视频生成端到端速度提高了 2.2 倍。该代码可从此 https URL 获取 ...
专家混合 (MoE) 已成为大型语言模型 (LLM) 中的主导架构,因为它能够通过稀疏专家激活来扩展模型容量。同时,无服务器计算凭借其弹性和按使用量计费,非常适合部署具有突发工作负载的 MoE。然而,由于内存密集型参数缓存,MoE 模型中的大量专家会产生很高的推理成本。由于依赖于输入的专家激活,这些成本很难通过简单的模型划分来减轻。为了解决这些问题,我们提出了 Remoe,这是一种专为无服务器计算量身定制的异构 MoE 推理系统。 Remoe 将非专家模块分配给 GPU,将专家模块分配给 CPU,并进一步将不经常激活的专家卸载到单独的无服务器功能,以减少内存开销并实现并行执行。我们结合了三个关键技术:(1)相似提示搜索(SPS)算法,根据输入的语义相似性来预测专家激活模式; (2) 主模型预分配 (MMP) 算法,通过最坏情况内存估计来确保服务级别目标 (SLO); (3) 利用拉格朗日对偶性和最长处理时间 (LPT) 算法的联合内存和副本优化框架。我们在 Kubernetes 上实现 Remoe,并通过多个 LLM 基准对其进行评估。实验结果表明,与最先进的基线相比,Remoe 将推理成本降低了 57%,冷启动延迟降低了 47% ...
视频扩散模型 (VDM) 在 3D 时空域上执行注意力计算。与处理一维序列的大型语言模型 (LLM) 相比,它们的内存消耗呈立方级增长,因此需要跨多个 GPU 进行并行服务。传统的并行策略对计算图进行划分,需要频繁的高维激活传输,从而造成严重的通信瓶颈。为了解决这个问题,我们利用扩散去噪过程中固有的局部时空依赖性,并提出潜在并行性(LP),这是第一个为 VDM 服务量身定制的并行策略。 \textcolor{black}{LP 通过在扩散时间步长内动态旋转紧凑潜在空间内的分区维度(时间、高度和宽度),将全局去噪问题分解为可并行的子问题,与主流并行策略相比,大大减少了通信开销。}为了确保生成质量,我们设计了一种补丁对齐的重叠分区策略,该策略将分区边界与视觉补丁相匹配,并设计了一种用于平滑拼接的位置感知潜在重建机制。三个基准测试的实验表明,LP 比基线方法减少了高达 97% 的通信开销,同时保持了相当的生成质量。作为一种非侵入式插件范例,LP 可以与现有并行策略无缝集成,从而实现高效且可扩展的视频生成服务 ...
由于高资源需求和动态工作负载,大型专家混合 (MoE) 模型推理具有挑战性。现有的解决方案通常将整个模型部署为单个整体单元,尽管需求不同,但对注意力模块和专家模块应用统一的资源配置,导致可扩展性有限和资源效率低下。在本文中,我们提出了 Janus,这是一种可扩展的 MoE 推理系统,它将注意力和专家分散在单独的 GPU 子集群上,从而使每个模块都能独立管理和扩展。 Janus 融合了三个关键设计,以实现高效、分类的 MoE 推理。首先,它提出了一种自适应两阶段通信方案,利用节点内和节点间带宽层次结构进行低延迟数据交换。其次,受 MoE 模块内存限制性质的推动,Janus 引入了轻量级调度程序,并将其实现为 GPU 内核,以最小的开销平衡 GPU 上激活的专家数量,从而减少推理延迟。第三,Janus进行细粒度的资源管理,动态调整专家安置,独立扩展注意力和MoE资源,提高整体效率。评估显示,Janus 的每 GPU 吞吐量比最先进的系统高出 3.9,同时满足每个 Token 的延迟要求 ...