- 名称
- SentenceKV: Efficient LLM Inference via Sentence-Level Semantic KV Caching
- 描述
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...