增强型大型语言模型 (LLM) 通过 API 调用集成外部数据源,增强了独立 LLM 的功能。在交互式 LLM 应用程序中,高效的调度对于保持较低的请求完成时间至关重要,从而直接影响用户的参与度。然而,由于需要管理缓存信息(KV 缓存)的有限内存,这些增强带来了调度挑战。因此,传统的基于大小的调度算法(例如最短作业优先 (SJF))在最小化完成时间方面变得不太有效。现有的工作仅关注通过保留、丢弃或交换内存来处理 API 调用期间的请求,而不考虑如何通过 API 调用来调度请求。在本文中,我们提出了 LAMPS,一种用于增强 LLM 的新型 LLM 推理框架。 LAMPS 通过统一的调度方法最大限度地减少请求完成时间,该方法考虑 API 调用期间请求的总长度及其处理策略。认识到 LLM 推理受内存限制,我们的方法根据随时间推移的内存消耗对请求进行排名,这取决于输出大小以及请求在 API 调用期间的管理方式。为了实现我们的调度,LAMPS 预测了在 API 调用期间最大限度地减少请求内存浪费的策略,与现有方法保持一致但有所改进。我们还提出了饥饿预防技术和优化,以减轻我们的调度开销。我们在 vLLM 之上实施 LAMPS,并根据基线 LLM 推理系统评估其性能,与现有的增强型 LLM 系统相比,端到端延迟提高了 27%-85%,TTFT 降低了 4%-96%,与 vLLM 相比,收益甚至更大 ...
给出一个简单的请求,例如将洗过的苹果放入厨房冰箱中,人类可以通过想象动作序列并对其成功的可能性、原型性和效率进行评分,以纯粹抽象的术语进行推理,而所有这些都无需移动肌肉。一旦我们看到有问题的厨房,我们就可以更新我们的抽象计划以适应场景。实体代理需要相同的能力,但现有的工作尚未提供抽象推理和具体执行所需的基础设施。我们通过引入 ALFWorld 来解决这一限制,该模拟器使代理能够在 TextWorld 中学习基于抽象文本的策略(Côté 等人,2018),然后在丰富的视觉环境中执行 ALFRED 基准(Shridhar 等人,2020)中的目标。 ALFWorld 能够创建一个新的 BUTLER 代理,其在 TextWorld 中学习的抽象知识直接对应于具体的、基于视觉的操作。反过来,正如我们凭经验证明的那样,与仅在视觉基础环境中进行训练相比,这可以促进更好的代理泛化。 BUTLER 简单的模块化设计解决了这个问题,使研究人员能够专注于改进管道的每个部分(语言理解、规划、导航和视觉场景理解)的模型 ...
大型语言模型 (LLM) 推理对计算和内存的高要求使其只能通过多个高端加速器才能实现。受批处理对延迟不敏感任务的新兴需求的推动,本文启动了使用有限资源(例如单个商用 GPU)进行高吞吐量 LLM 推理的研究。我们推出了 FlexGen,这是一种高吞吐量生成引擎,用于在 GPU 内存有限的情况下运行 LLM。 FlexGen 可以通过聚合 GPU、CPU 和磁盘的内存和计算,在各种硬件资源限制下进行灵活配置。通过解决线性规划问题,它搜索有效的模式来存储和访问张量。 FlexGen 进一步将权重和注意力缓存压缩至 4 位,精度损失可以忽略不计。这些技术使 FlexGen 拥有更大的批量大小选择空间,从而显着提高最大吞吐量。因此,当在单个 16GB GPU 上运行 OPT-175B 时,FlexGen 与最先进的卸载系统相比,实现了显着更高的吞吐量,首次达到 1 token/s 的生成吞吐量,有效批量大小为 144。在 HELM 基准测试中,FlexGen 可以在 21 小时内在 7 个代表性子场景上对具有 16GB GPU 的 30B 模型进行基准测试。该代码可在此 https URL 获取 ...
DeepSeek-V3.2-Exp引入了稀疏注意力机制,可显着减少长上下文场景中的推理延迟。尽管整体吞吐量有了很大提高,但 PD 分解的解码阶段仍然是主要瓶颈。这个瓶颈主要源于Latent-Cache随序列长度线性增长与有限的GPU内存容量之间的冲突,这限制了可行的batch size,从而抑制了Decode-stage的吞吐量。为了应对这一挑战,我们提出了 ESS(扩展稀疏服务器),这是一种为 DeepSeek-V3.2-Exp 量身定制的以卸载为中心的系统设计。 ESS 有选择地将潜在缓存卸载到 CPU 内存,同时保留 GPU 上的延迟关键组件。通过释放 GPU 内存,ESS 有效地将批量大小缩放与 GPU 内存限制解耦。这种设计显着提高了解码阶段的吞吐量,从而降低了实际环境中的部署成本。我们的高保真模拟表明,ESS 在 32K 上下文长度下实现了 69.4% 的吞吐量提升,在 128K 下实现了高达 123% 的吞吐量提升,证明了其对于大上下文推理工作负载的有效性。这些结果凸显了 ESS 作为长上下文 LLM 服务的实用且可扩展的解决方案 ...