大型语言模型是根据大量互联网数据进行训练的,这引发了人们的担忧和猜测,即它们已经记住了公共基准。从推测到污染证明具有挑战性,因为专有模型使用的预训练数据通常无法公开访问。我们证明,无需访问预训练数据或模型权重,就可以为语言模型中的测试集污染提供可证明的保证 ...
本文探索了一种简单有效的文本分类基线。我们的实验表明,我们的快速文本分类器 fastText 在准确性方面通常与深度学习分类器相当,并且训练和评估速度快了许多数量级。我们可以使用标准多核 CPU 在不到 10 分钟的时间内训练超过 10 亿个单词的 fastText,并在不到一分钟的时间内对 312K 类中的 50 万个句子进行分类 ...
大型语言模型 (LLM) 的巨大发展凸显了海量、异构和高质量数据的重要性。数据配方是来自不同来源的数据的混合,用于训练 LLM ,这对 LLM 的表现起着至关重要的作用。现有的 LLM 数据处理开源工具大多是针对特定数据配方量身定制的 ...
大型文本语料库是语言模型的支柱。然而,我们对这些语料库的内容了解有限,包括一般统计数据、质量、社会因素以及评估数据的包含(污染)。在这项工作中,我们提出了“我的大数据中有什么?” (WIMBD),一个平台和一组十六种分析,使我们能够揭示和比较大型文本语料库的内容 ...