arxiv RULER: What's the Real Context Size of Your Long-Context Language Models?

名称
RULER: What's the Real Context Size of Your Long-Context Language Models?
首页
https://yiyibooks.cn/arxiv/2404.06654v1/index.html
原始地址
https://arxiv.org/abs/2404.06654
描述
大海捞针(NIAH)测试检查从长干扰文本(“大海捞针”)中检索一条信息(“针”)的能力,已被广泛用于评估长上下文语言模型(LM)。然而,这种简单的基于检索的测试仅表明长上下文理解的表面形式。为了对长上下文 LM 提供更全面的评估,我们创建了一个新的综合基准标尺,该标尺具有灵活的配置,可定制序列长度和任务复杂性 ...