基本信息 - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

arxiv LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

阅读

Star 0

名称: LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

首页: https://yiyibooks.cn/arxiv/2308.14508v1/index.html

原始地址: https://arxiv.org/abs/2308.14508

描述

尽管大型语言模型 (LLM) 在许多语言任务中表现出令人印象深刻的性能，但它们中的大多数只能处理几千个标记长的文本，限制了它们在较长序列输入（例如书籍、报告和代码库）上的应用。最近的工作提出了通过扩展上下文窗口和更复杂的记忆机制来提高 LLM 的长上下文能力的方法。然而，缺乏为评估长期上下文理解而定制的综合基准 ...