我们提出了LongLoRA,这是一种有效的训练方法,可以扩展预大型语言模型(LLM)的上下文大小,且计算成本有限。通常,训练具有长上下文大小的LLM的计算成本,需要大量成本的训练时间和GPU资源。例如,在8192的上下文长度上进行训练需要的自注意力层计算成本是2048的16倍... ...

0 0 0 0 2024/10/20 arXiv:2309.12307v3 oscarhscc

旋转位置嵌入(RoPE)已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而,这些模型无法泛化超过它们训练的序列长度。我们提出了 YaRN(另一种 RoPE 扩展方法),这是一种计算的方法,对于扩展此类模型的上下文窗口,需要的高效 Token 至少 10 倍,并且需要 2 倍的 Token ... ...

0 2 1 1 2024/11/09 arXiv:2309.00071v2 oscarhscc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)