基本信息 - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

arxiv Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

阅读

Star 2

名称: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

首页: https://yiyibooks.cn/arxiv/2402.00159v1/index.html

原始地址: https://arxiv.org/pdf/2402.00159.pdf

描述

语言模型已成为解决各种自然语言处理任务的关键技术，但有关如何开发性能最佳的语言模型的许多细节尚未报道。特别是，有关其预训练语料库的信息很少被讨论：商业语言模型很少提供有关其数据的任何信息；即使是开放模型也很少发布它们所训练的数据集，或者重现它们的确切方法。因此，进行某些语言建模研究是具有挑战性的，例如了解训练数据如何影响模型功能并形成其局限性 ...