我们提出了 SuffixDecoding,这是一种新颖的无模型方法,可通过推测解码加速大语言模型 (LLM) 推理。与依赖草稿模型或专门解码头的现有方法不同,SuffixDecoding 利用根据先前生成的输出构建的后缀树来有效预测候选标记序列。我们的方法可以实现灵活的树结构推测,而无需维护和编排额外模型的开销 ...

0 1 0 0 2024/12/18 arXiv:2411.04975v1 remaper

LLM代理的应用变得越来越复杂和多样化,导致对可以解析为代码、结构化函数调用和具体代理命令的结构化输出的高需求。这些发展对 LLM 推理中的结构化生成提出了巨大的需求。上下文无关语法是一种通过约束解码实现结构化生成的灵活方法 ...

0 1 0 0 2024/12/18 arXiv:2411.15100v2 remaper

为了减少与自回退 LLM 推理相关的延迟,推测解码已作为一种新颖的解码范例出现,其中未来的 Token 是并行起草和验证的。然而,推测解码的实际部署受到其对额外计算资源和微调的要求的阻碍,这限制了其开箱即用的可用性。为了应对这些挑战,我们推出了 PLD+,这是一套新颖的算法,旨在加速 LLM 的推理过程,特别是对于输入引导的任务 ...

0 1 0 0 2024/12/18 arXiv:2412.01447v1 remaper

在现实场景中高效部署大型语言模型 (LLM) 仍然是一个关键挑战,主要是由于硬件异构性、推理框架限制和工作负载,在现实场景中部署大型语言模型 (LLM) 的 http URL 仍然是一个关键挑战,主要是由于硬件异构性、推理框架限制和工作负载复杂性。这些挑战通常会导致内存利用率、延迟和吞吐量效率低下,阻碍 LLM 的有效部署,特别是对于非专家而言。通过大量的实验,我们确定了关键的性能瓶颈,包括内存利用率突然下降、批量大小不同时的延迟波动以及多 GPU 配置中的低效率 ...

0 1 0 0 2024/12/18 arXiv:2412.04788v1 remaper

尽管大型语言模型(LLM)在各种任务中具有巨大潜力,但由于其过多的计算和内存需求,它们在资源有限的设备上的部署仍然具有挑战性。通过以降低的精度存储权重,量化已成为一种有效的解决方案。然而,利用低精度(即 ...

0 0 0 0 2024/10/23 arXiv:2410.13461v1 remaper

大型语言模型 (LLM) 在自然语言处理方面表现出色,但需要大量计算。为了缓解这个问题,人们探索了各种量化方法,但它们却损害了 LLM 的性能。本文揭示了 LLM 中以前被忽视的异常值类型 ...

0 0 0 0 2024/09/26 arXiv:2403.01241v2 remaper

这项工作引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到具有有限内存和计算的无限长输入。我们提出的方法的一个关键组成部分是一种称为“无限注意力”的新注意力技术。 Infini-attention 将压缩记忆融入到普通的注意力机制中,并在单个 Transformer 块中构建了屏蔽局部注意力和长期线性注意力机制 ...

0 0 0 0 2024/09/12 arXiv:2404.07143v2 remaper

由于自注意力机制固有的二次计算复杂性和大量的 KV 内存需求,在自回归 Transformer 中有效容纳长序列(尤其是在扩展的上下文窗口内)提出了重大挑战。在这项工作中,我们引入了 SPARSEK Attention,这是一种新颖的稀疏注意力机制,旨在克服这些计算和内存障碍,同时保持性能。我们的方法集成了评分网络和可微分的 top-k 掩码运算符 SPARSEK,为每个查询选择恒定数量的 KV 对,从而实现基于梯度的优化 ...

0 0 0 0 2024/09/12 arXiv:2406.16747v1 remaper

大型语言模型(LLM)的效率仍然是一个严峻的挑战,特别是在计算资源有限的情况下。这些模型中的传统注意力机制虽然强大,但由于需要跨不同层重新计算和存储注意力权重,因此需要大量的计算和内存资源。本文介绍了一种新颖的共享注意力(SA)机制,旨在通过跨多层直接共享计算的注意力权重来提高 LLM 的效率 ...

0 0 0 0 2024/09/12 arXiv:2407.12866v1 remaper

基于 Transformer 的语言模型已经发现了许多不同的应用程序,要求它们处理长度不断增加的序列。对于这些应用程序,因果自注意力——这是唯一可以二次缩放的组件 ...

0 1 0 0 2024/09/12 arXiv:2306.01160v1 remaper

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)