大型语言模型(LLM)因其惊人的能力而被应用于各种应用中。随着思想链(CoT)提示和情境学习(ICL)等技术的进步,LLM的提示变得越来越长,甚至超过数万个 Token 。为了加速模型推理并降低成本,本文提出了 LLMLingua,这是一种从粗到细的即时压缩方法,其中涉及预算控制器以在高压缩比下保持语义完整性,这是一种 Token 级迭代压缩算法,可以更好地建模压缩之间的相互依赖关系。内容,以及基于指令调优的语言模型之间的分布对齐方法 ...

0 0 0 0 2024/04/15 arXiv:2310.05736v2 orangelcx

大型语言模型 (LLM) 彻底改变了人工智能,但受到有限的上下文窗口的限制,阻碍了它们在扩展对话和文档分析等任务中的实用性。为了能够在有限的上下文窗口之外使用上下文,我们提出了虚拟上下文管理,这是一种从传统操作系统中的分层内存系统中汲取灵感的技术,该技术通过快速内存和慢速内存之间的数据移动提供大内存资源的外观。使用这种技术,我们引入了MemGPT(Memory-GPT),这是一个智能管理不同内存层的系统,以便在LLM有限的上下文窗口内有效地提供扩展上下文,并利用中断来管理其自身和用户之间的控制流 ...

0 0 0 0 2024/04/15 arXiv:2310.08560v2 orangelcx

迫切需要在流应用程序(例如多轮对话)中部署大型语言模型(LLM),这些应用程序需要长时间交互,但会带来两个主要挑战。首先,在解码阶段,缓存先前 Token 的键和值状态(KV)会消耗大量内存。其次,流行的 LLM 不能推广到比训练序列长度更长的文本 ...

0 0 0 0 2024/04/15 arXiv:2309.17453v4 orangelcx

大型语言模型 (LLM) 使用预定义的上下文长度进行训练,限制了它们在需要长输入的场景中的使用。之前为使LLM适应更长的长度所做的努力通常需要对此目标长度进行微调(全长微调),从而承受密集的培训成本。为了将训练长度与目标长度解耦以实现有效的上下文窗口扩展,我们提出了位置 Skip-wisE (PoSE) 训练,该训练使用固定上下文窗口智能地模拟长输入 ...

0 0 0 0 2024/04/11 arXiv:2309.10400v3 orangelcx

在本文中,我们介绍了 EfficientPose,一种 6D 物体姿态估计的新方法。我们的方法在广泛的计算资源上高度准确、高效且可扩展。此外,它可以检测多个对象和实例的 2D 边界框,并在单次拍摄中估计它们的完整 6D 姿势 ...

0 0 0 0 2024/04/11 arXiv:2011.04307v2 orangelcx

大型语言模型 (LLM) 的自回归解码受内存带宽限制,导致高延迟并严重浪费现代加速器的并行处理能力。加速 LLM 解码的现有方法通常需要草稿模型(例如 ...

0 0 0 0 2024/03/29 arXiv:2402.02057v1 orangelcx

自回归解码使得大型语言模型 (LLM) 的推理非常耗时。在本文中,我们重新考虑推测性抽样并得出两个关键观察结果。首先,特征(第二层到顶层)级别的自回归比 Token 级别更直接 ...

0 0 0 0 2024/03/29 arXiv:2401.15077v2 orangelcx

我们提出了位置插值 (PI),它可以将基于 RoPE 的预训练 LLM(例如 LLaMA 模型)的上下文窗口大小扩展到 32768,并进行最小的微调(1000 步以内),同时在需要长上下文的各种任务上展示了强有力的经验结果,包括密钥检索、语言建模和从 LLaMA 7B 到 65B 的长文档摘要。同时,位置插值的扩展模型在其原始上下文窗口内的任务上相对较好地保持了质量。为了实现这一目标,位置插值线性缩小输入位置索引以匹配原始上下文窗口大小,而不是推断超出训练的上下文长度,这可能导致灾难性的高注意力分数,从而完全破坏自注意力机制 ...

0 0 0 0 2024/04/01 arXiv:2306.15595v2 orangelcx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)