arxiv LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding

名称
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding
首页
https://yiyibooks.cn/arxiv/2308.14508v1/index.html
原始地址
https://arxiv.org/abs/2308.14508
描述
尽管大型语言模型 (LLM) 在许多语言任务中表现出令人印象深刻的性能,但它们中的大多数只能处理几千个标记长的文本,限制了它们在较长序列输入(例如书籍、报告和代码库)上的应用。最近的工作提出了通过扩展上下文窗口和更复杂的记忆机制来提高 LLM 的长上下文能力的方法。然而,缺乏为评估长期上下文理解而定制的综合基准 ...