- 名称
- Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference
- 描述
最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...
最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...