我们提出了 LongLoRA,这是一种有效的微调方法,可以扩展预训练大型语言模型 (LLM) 的上下文大小,且计算成本有限。通常,训练具有长上下文大小的 LLM 的计算成本很高,需要大量的训练时间和 GPU 资源。例如,在 8192 的上下文长度上进行训练需要的自注意力层计算成本是 2048 的 16 倍 ...

0 0 0 0 2024/04/09 arXiv:2309.12307v3 oscarhscc

旋转位置嵌入 (RoPE) 已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而,这些模型无法泛化超过它们训练的序列长度。我们提出了 YaRN(另一种 RoPE 扩展方法),这是一种计算高效的方法,用于扩展此类模型的上下文窗口,需要的 Token 少 10 倍,并且需要 2 倍的 Token ...

0 0 0 0 2024/06/18 arXiv:2309.00071v2 oscarhscc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)