大型语言模型(LLM)擅长处理多个自然语言处理任务,但是它们的能力受到较长的性能,长篇小说,推理速度缓慢以及计算结果的高成本。以精确和信息性的环境部署LLM,可帮助用户更有效,更具成本效益地处理大型数据集。现有作品依赖于将长提示上下文压缩到软提示中 ...
检索增强生成(RAG)可以通过使用外部信息扩展输入来克服 LLM 知识的有限性。因此,模型的上下文输入变得更长,这会减慢解码时间,直接转化为用户必须等待答案的时间。我们通过提出 COCOM 来解决这一挑战,这是一种有效的上下文压缩方法,将长上下文减少到只有少数上下文嵌入,从而大大加快了生成时间 ...