我们提出了LongLoRA,这是一种有效的训练方法,可以扩展预大型语言模型(LLM)的上下文大小,且计算成本有限。通常,训练具有长上下文大小的LLM的计算成本,需要大量成本的训练时间和GPU资源。例如,在8192的上下文长度上进行训练需要的自注意力层计算成本是2048的16倍... ...
旋转位置嵌入(RoPE)已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而,这些模型无法泛化超过它们训练的序列长度。我们提出了 YaRN(另一种 RoPE 扩展方法),这是一种计算的方法,对于扩展此类模型的上下文窗口,需要的高效 Token 至少 10 倍,并且需要 2 倍的 Token ... ...