基本信息 - RULER: What's the Real Context Size of Your Long-Context Language Models?

arxiv RULER: What's the Real Context Size of Your Long-Context Language Models?

阅读

Star 0

名称: RULER: What's the Real Context Size of Your Long-Context Language Models?

首页: https://yiyibooks.cn/arxiv/2404.06654v1/index.html

原始地址: https://arxiv.org/abs/2404.06654

描述

大海捞针（NIAH）测试检查从长干扰文本（“大海捞针”）中检索一条信息（“针”）的能力，已被广泛用于评估长上下文语言模型（LM）。然而，这种简单的基于检索的测试仅表明长上下文理解的表面形式。为了对长上下文 LM 提供更全面的评估，我们创建了一个新的综合基准标尺，该标尺具有灵活的配置，可定制序列长度和任务复杂性 ...