arxiv Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference

名称
Cocktail: Chunk-Adaptive Mixed-Precision Quantization for Long-Context LLM Inference
首页
https://yiyibooks.cn/arxiv/2503.23294v1/index.html
原始地址
https://arxiv.org/pdf/2503.23294v1
描述
最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...