arxiv SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching

名称
SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching
首页
https://yiyibooks.cn/arxiv/2504.00970v1/index.html
原始地址
https://arxiv.org/pdf/2504.00970
描述
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...