基本信息 - Efficient Memory Management for Large Language Model Serving with PagedAttention

arxiv Efficient Memory Management for Large Language Model Serving with PagedAttention

阅读

名称: Efficient Memory Management for Large Language Model Serving with PagedAttention

首页: https://yiyibooks.cn/arxiv/2309.06180v1/index.html

原始地址: https://arxiv.org/pdf/2309.06180

描述

大型语言模型 (LLM) 的高吞吐量服务需要一次批处理足够多的请求。然而，现有系统很困难，因为每个请求的键值缓存（KV 缓存）内存巨大，并且会动态增长和收缩。如果管理效率低下，这些内存可能会因碎片和冗余重复而被严重浪费，从而限制了批处理大小。为了解决这个问题，我们提出了 PagedAttention，这是一种受操作系统中经典虚拟内存和分页技术启发的注意力算法。在此基础上，我们构建了 vLLM，这是一个 LLM 服务系统，它实现了（1）KV 缓存内存几乎为零的浪费，以及（2）在请求内和请求之间灵活共享 KV 缓存，以进一步减少内存使用。我们的评估表明，与最先进的系统（例如 FasterTransformer 和 Orca）相比，在相同延迟水平下，vLLM 将流行 LLM 的吞吐量提高了 2-4$\times$。对于更长的序列、更大的模型和更复杂的解码算法，这种改进更加明显。 vLLM 的源代码可在此 https URL 公开获取 ...