- 名称
- KVTuner: Sensitivity-Aware Layer-Wise Mixed-Precision KV Cache Quantization for Efficient and Nearly Lossless LLM Inference
- 描述
KV缓存量化可以在长篇小说和大批量大小的场景中改善大型语言模型(LLMS)推理吞吐量和延迟,同时保持LLMS有效性。但是,当前方法有三个未解决的问题:忽略对KV缓存量化的层次敏感性,在线细粒度决策的高间接开销以及对不同LLM和约束的灵活性较低。因此,我们从理论上分析了层 Transformer 注意模式与KV缓存量化误差的固有相关性,并研究为什么关键缓存通常比降低量化误差的值更重要 ...