arxiv Extending LLMs' Context Window with 100 Samples

名称
Extending LLMs' Context Window with 100 Samples
首页
https://yiyibooks.cn/arxiv/2401.07004v1/index.html
原始地址
https://arxiv.org/pdf/2401.07004.pdf
描述
众所周知,大型语言模型(LLM)的外推能力有限,超出了预训练的上下文窗口,从而限制了其在带有冗长输入的下游任务中的应用。最近的研究试图通过修改旋转位置嵌入(ROPE)来扩展LLMS的上下文窗口,这是一种流行的位置编码方法,该方法由众所周知的LLMS(例如Llama,Palm和GPT-Neox)采用。但是,诸如位置插值(PI)和纱线之类的先前工作是资源密集的,缺乏比较实验来评估其适用性 ...