大型语言模型(LLM)擅长处理多个自然语言处理任务,但是它们的能力受到较长的性能,长篇小说,推理速度缓慢以及计算结果的高成本。以精确和信息性的环境部署LLM,可帮助用户更有效,更具成本效益地处理大型数据集。现有作品依赖于将长提示上下文压缩到软提示中 ...

0 0 0 0 2025/03/06 arXiv:2402.18700v2 Daisyhhh

检索增强生成(RAG)可以通过使用外部信息扩展输入来克服 LLM 知识的有限性。因此,模型的上下文输入变得更长,这会减慢解码时间,直接转化为用户必须等待答案的时间。我们通过提出 COCOM 来解决这一挑战,这是一种有效的上下文压缩方法,将长上下文减少到只有少数上下文嵌入,从而大大加快了生成时间 ...

0 0 0 0 2025/03/06 arXiv:2407.09252v3 Daisyhhh

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)