多轮、代理 LLM 推理的性能越来越受到 KV-Cache 存储 I/O 而不是计算的支配。在流行的分解架构中,从外部存储加载大量 KV 缓存会造成根本性的不平衡:预填充引擎上的存储 NIC 带宽饱和,而解码引擎上的存储 NIC 保持空闲状态。这种不对称性严重限制了整个系统的吞吐量。我们提出了 DualPath,一种推理系统,通过引入双路径 KV-Cache 加载来打破这个瓶颈。除了传统的存储到预填充路径之外,DualPath 还实现了一种新颖的存储到解码路径,其中 KV 缓存加载到解码引擎中,然后通过计算网络上的 RDMA 有效地传输到预填充引擎。 DualPath 将这种优化的数据路径(本质上避免了网络拥塞并避免对延迟关键型模型执行通信的干扰)与全局调度程序相结合,该全局调度程序动态平衡预填充和解码引擎之间的负载。我们对具有生产代理工作负载的三个模型的评估表明,DualPath 在我们的内部推理系统上将离线推理吞吐量提高了高达 1.87$\times$。它还可以在不违反 SLO 的情况下将在线服务吞吐量平均提高 1.96$\times$ ...
我们提出了 GLM-5,这是一种下一代基础模型,旨在将振动编码范式转变为代理工程。 GLM-5 以其前身的代理、推理和编码 (ARC) 功能为基础,采用 DSA 来显着降低训练和推理成本,同时保持长上下文保真度。为了推进模型对齐和自治,我们实施了一个新的异步强化学习基础设施,通过将生成与训练解耦,极大地提高了训练后的效率。此外,我们提出了新颖的异步代理强化学习算法,可以进一步提高强化学习质量,使模型能够更有效地从复杂的长范围交互中学习。通过这些创新,GLM-5 在主要开放基准测试中实现了最先进的性能。最关键的是,GLM-5 在实际编码任务中展示了前所未有的能力,在处理端到端软件工程挑战方面超越了以前的基线。代码、模型和更多信息可从此 https URL 获取 ...
训练大型语言模型需要将计算分布在许多加速器上,但实践者通过反复试验来选择并行策略(数据、张量、管道、ZeRO),因为没有统一的系统框架可以预测它们的行为。我们引入放置语义:每个策略都通过如何使用五种模式(复制、分片、分片与收集、物化、卸载)跨设备放置四种训练状态(参数、优化器、梯度、激活)来指定。仅从放置位置而不考虑实现细节,我们就可以得出内存消耗和通信量。我们的预测与已发布的结果完全一致:如原始论文中所述,ZeRO-3 使用的内存比数据并行少 8 倍,通信成本为 1.5 倍。我们证明了分布式训练匹配单设备结果的两个条件(梯度完整性、状态一致性)是必要且充分的,并提供了安全组合策略的组合规则。该框架将 ZeRO 阶段 1-3、完全分片数据并行 (FSDP)、张量并行和管道并行统一为具有不同放置选择的实例 ...
思想树 (ToT) 通过将问题解决构建为生成树来增强大型语言模型 (LLM) 推理。然而,最近的方法侧重于搜索精度,而忽视了计算效率。加速ToT的挑战在于推理焦点的频繁切换以及对次优解决方案的冗余探索。为了缓解这种困境,我们提出了动态并行树搜索(DPTS),这是一种新颖的并行框架,旨在动态优化推理中的推理路径。它在生成阶段包含并行性流线,通过细粒度的缓存管理和对齐来构建具有任意路径的灵活且自适应的并行性。同时,搜索和转换机制会过滤潜在的候选者,以动态地将推理集中在更多可能的解决方案上,并减少冗余。在 Qwen-2.5 和 Llama-3 上使用 Math500 和 GSM8K 数据集进行的实验表明,DPTS 平均显着提高了 2-4 倍的效率,同时保持甚至超越了现有推理算法的准确性,使得基于 ToT 的推理更具可扩展性和计算效率 ...
神经网络已成为跨云和边缘平台的主要计算工作负载,但模型大小和部署多样性的快速增长暴露了硬件瓶颈,这些瓶颈越来越多地由内存移动、通信和不规则算子主导,而不是峰值算术吞吐量。这项调查回顾了深度学习硬件加速的技术前景,涵盖 GPU 和张量核心架构;特定领域加速器(例如 TPU/NPU);基于FPGA的设计; ASIC 推理引擎;以及新兴的 LLM 服务加速器,例如 LPU(语言处理单元),以及内存/近内存计算和神经形态/模拟方法。我们使用统一的分类法来组织空间:(i) 工作负载(CNN、RNN、GNN 和 Transformer/LLM),(ii) 执行设置(训练与推理;数据中心与边缘),以及 (iii) 优化杠杆(降低精度、稀疏性和剪枝、算子融合、编译和调度以及内存系统/互连设计)。我们综合了关键的架构思想,包括脉动阵列、向量和 SIMD 引擎、专门关注和 softmax 内核、量化感知数据路径和高带宽内存,并讨论了软件堆栈和编译器如何将模型语义与硬件联系起来。最后,我们强调了开放的挑战——包括高效的长上下文 LLM 推理(KV 缓存管理)、对动态和稀疏工作负载的强大支持、能源和安全感知部署以及公平的基准测试——并指出了下一代神经加速的有希望的方向 ...
大型语言模型 (LLM) 在广泛的自然语言处理任务中表现出了卓越的能力。这些功能主要源于自注意力机制,它可以对远程依赖关系进行建模。然而,自注意力相对于序列长度的二次复杂度带来了巨大的计算和记忆挑战,特别是当序列长度延伸到极端时。虽然已经提出了各种稀疏注意力和 KV 缓存压缩方法来提高效率,但它们通常受到诸如依赖固定模式、无法处理预填充和解码阶段或需要额外训练等限制。在本文中,我们提出了免训练上下文自适应注意力(TCA-Attention),这是一种免训练稀疏注意力机制,有选择地仅关注信息标记以实现高效的长上下文推理。我们的方法由两个轻量级阶段组成:i)离线校准阶段,通过单个前向传递确定头部特定的稀疏预算;ii)在线 Token 选择阶段,使用轻量级冗余度量自适应地保留核心上下文 Token 。 TCA-Attention 提供了一个统一的解决方案,可加速预填充和解码,同时减少 KV 缓存内存占用,无需参数更新或架构更改。理论分析表明我们的方法保持有界近似误差。大量实验表明,TCA-Attention 在 128K 上下文长度下实现了 2.8 倍的加速,并将 KV 缓存减少了 61%,同时在各种基准测试中保持与完全注意力相当的性能,为高效的长上下文推理提供了实用的即插即用解决方案 ...
长上下文推理场景对于大型语言模型变得越来越重要,但它们引入了显着的计算延迟。虽然之前的研究已经通过算子、模型架构和系统框架优化了长序列推理,但标记化仍然是一个被忽视的瓶颈。现有的并行标记化方法通过文本分割和多进程标记化来加速处理,但由于合并后出现的边界伪影,它们会出现不一致的结果。为了解决这个问题,我们提出了 LoPT,一种新颖的无损并行标记化框架,可确保输出与标准顺序标记化相同。我们的方法采用基于字符位置的匹配和动态块长度调整来准确对齐和合并标记化片段。跨不同长文本数据集的大量实验表明,LoPT 在保证无损标记化的同时实现了显着的加速。我们还提供一致性的理论证明和全面的分析研究,以验证我们方法的稳健性 ...
长序列建模面临着类似 RNN 模型中压缩固定大小内存的效率与基于注意力的 Transformer 中无损增长内存的保真度之间的基本权衡。受认知科学中的多存储模型的启发,我们引入了人工神经网络的记忆框架。我们的方法将 Transformer 的 KV 缓存的滑动窗口维护为无损短期记忆,而称为人工海马网络(AHN)的可学习模块会循环地将窗口外信息压缩到固定大小的紧凑长期记忆中 ...
扩散语言模型 (DLM) 在具有上下文示例的一般自然语言任务中显示出强大的潜力。然而,由于双向注意力机制,随着上下文长度的增加,DLM 会产生大量的计算成本。这项工作通过一个关键发现解决了这个问题:与自回归语言模型(ARLM)中的顺序生成不同,DLM 中的扩散生成范式允许在生成过程中 \textit{有效地动态调整上下文}。基于这一见解,我们提出了 \textbf{D}ynamic \textbf{I}n-Context \textbf{P}lanner (DIP),这是一种上下文优化方法,可以在生成过程中动态选择和插入上下文示例,而不是在提示中预先提供所有示例。结果显示,DIP 保持生成质量,同时比标准推理实现高达 12.9$\times$ 的推理加速,比 KV 缓存增强推理高达 1.17$\times$ ...
多模态大语言模型 (MLLM) 通过三阶段管道扩展了 LLM 的视觉理解:多模态预处理、视觉编码和 LLM 推理。虽然这些阶段增强了能力,但它们引入了严重的系统瓶颈。首先,多模态预处理(尤其是视频解码)通常在首次标记时间 (TTFT) 中占主导地位。大多数系统依赖于基于 CPU 的解码,这严重限制了吞吐量,而现有的基于 GPU 的方法优先考虑面向吞吐量的并行性,无法满足 MLLM 推理的延迟敏感要求。其次,视觉编码器是一个独立的计算密集型阶段,可生成视觉嵌入,无法与 LLM 预填充或解码共同批处理。这种异构性迫使阶段间阻塞并增加了 Token 生成延迟。即使部署在单独的 GPU 上,这些阶段也无法充分利用可用的计算和内存资源,从而降低总体利用率并限制系统吞吐量。为了应对这些挑战,我们提出了 FlashCodec 和 UnifiedServe,这两种互补的设计共同优化了端到端 MLLM 管道。 FlashCodec 通过协作多 GPU 视频解码加速多模式预处理阶段,减少解码延迟,同时保持高吞吐量。 UnifiedServe 通过在逻辑上解耦执行来优化视觉到文本和推理阶段,以消除阶段间阻塞,同时在物理上共享 GPU 资源,以最大限度地提高 GPU 系统利用率。通过仔细编排跨阶段的执行并最大程度地减少干扰,我们提出的 UnifiedServe Together 框架形成了一个端到端优化的堆栈,与最先进的系统相比,它可以服务最多 3.0$\time$ 的请求或执行 1.5$\time$ 更严格的 SLO,同时实现最高 4.4$\times$ 的吞吐量提高 ...