oscarhscc的文档

oscarhscc

个性签名 ...

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

我们提出了LongLoRA，这是一种有效的训练方法，可以扩展预大型语言模型（LLM）的上下文大小，且计算成本有限。通常，训练具有长上下文大小的LLM的计算成本，需要大量成本的训练时间和GPU资源。例如，在8192的上下文长度上进行训练需要的自注意力层计算成本是2048的16倍... ...

0 0 0 0 2024/10/20 arXiv:2309.12307v3 oscarhscc

YaRN: Efficient Context Window Extension of Large Language Models

旋转位置嵌入（RoPE）已被证明可以在基于 Transformer 的语言模型中有效地编码位置信息。然而，这些模型无法泛化超过它们训练的序列长度。我们提出了 YaRN（另一种 RoPE 扩展方法），这是一种计算的方法，对于扩展此类模型的上下文窗口，需要的高效 Token 至少 10 倍，并且需要 2 倍的 Token ... ...

0 2 1 1 2024/11/09 arXiv:2309.00071v2 oscarhscc

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

YaRN: Efficient Context Window Extension of Large Language Models

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）