- 名称
- Efficient Memory Management for Large Language Model Serving with PagedAttention
- 描述
大型语言模型 (LLM) 的高吞吐量服务需要一次批处理足够多的请求。然而,现有系统很困难,因为每个请求的键值缓存(KV 缓存)内存巨大,并且会动态增长和收缩。如果管理效率低下,这些内存可能会因碎片和冗余重复而被严重浪费,从而限制了批处理大小。为了解决这个问题,我们提出了 PagedAttention,这是一种受操作系统中经典虚拟内存和分页技术启发的注意力算法。在此基础上,我们构建了 vLLM,这是一个 LLM 服务系统,它实现了(1)KV 缓存内存几乎为零的浪费,以及(2)在请求内和请求之间灵活共享 KV 缓存,以进一步减少内存使用。我们的评估表明,与最先进的系统(例如 FasterTransformer 和 Orca)相比,在相同延迟水平下,vLLM 将流行 LLM 的吞吐量提高了 2-4$\times$。对于更长的序列、更大的模型和更复杂的解码算法,这种改进更加明显。 vLLM 的源代码可在此 https URL 公开获取 ...