arxiv Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

名称
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
首页
https://yiyibooks.cn/arxiv/2402.00159v1/index.html
原始地址
https://arxiv.org/pdf/2402.00159.pdf
描述
语言模型已成为解决各种自然语言处理任务的关键技术,但有关如何开发性能最佳的语言模型的许多细节尚未报道。特别是,有关其预训练语料库的信息很少被讨论:商业语言模型很少提供有关其数据的任何信息;即使是开放模型也很少发布它们所训练的数据集,或者重现它们的确切方法。因此,进行某些语言建模研究是具有挑战性的,例如了解训练数据如何影响模型功能并形成其局限性 ...