arxiv Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

名称
Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus
首页
https://yiyibooks.cn/arxiv/2104.08758v2/index.html
原始地址
https://arxiv.org/abs/2104.08758v2
描述
大型语言模型在许多 NLP 任务上取得了显着进展,研究人员正在转向更大的文本语料库来训练它们。一些最大的可用语料库是通过抓取互联网的重要部分而创建的,并且通常只用最少的文档进行介绍。在这项工作中,我们提供了 Colossal Clean Crawled Corpus 的一些第一份文档(C4;Raffel 等人) ...