基本信息 - Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

arxiv Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

阅读

Star 0

名称: Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

首页: https://yiyibooks.cn/arxiv/2104.08758v2/index.html

原始地址: https://arxiv.org/abs/2104.08758v2

描述

大型语言模型在许多 NLP 任务上取得了显着进展，研究人员正在转向更大的文本语料库来训练它们。一些最大的可用语料库是通过抓取互联网的重要部分而创建的，并且通常只用最少的文档进行介绍。在这项工作中，我们提供了 Colossal Clean Crawled Corpus 的一些第一份文档（C4；Raffel 等人） ...