我们提出了 LongLoRA,这是一种有效的微调方法,可以扩展预训练大型语言模型 (LLM) 的上下文大小,且计算成本有限。通常,训练具有长上下文大小的 LLM 的计算成本很高,需要大量的训练时间和 GPU 资源。例如,在 8192 的上下文长度上进行训练需要的自注意力层计算成本是 2048 的 16 倍 ...
旋转位置嵌入 (RoPE) 已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而,这些模型无法泛化超过它们训练的序列长度。我们提出了 YaRN(另一种 RoPE 扩展方法),这是一种计算高效的方法,用于扩展此类模型的上下文窗口,需要的 Token 少 10 倍,并且需要 2 倍的 Token ...