大型语言模型是根据大量互联网数据进行训练的,这引发了人们的担忧和猜测,即它们已经记住了公共基准。从推测到污染证明具有挑战性,因为专有模型使用的预训练数据通常无法公开访问。我们证明,无需访问预训练数据或模型权重,就可以为语言模型中的测试集污染提供可证明的保证 ...

0 0 0 0 2024/05/14 arXiv:2310.17623v2 wdndev

本文探索了一种简单有效的文本分类基线。我们的实验表明,我们的快速文本分类器 fastText 在准确性方面通常与深度学习分类器相当,并且训练和评估速度快了许多数量级。我们可以使用标准多核 CPU 在不到 10 分钟的时间内训练超过 10 亿个单词的 fastText,并在不到一分钟的时间内对 312K 类中的 50 万个句子进行分类 ...

0 0 0 0 2024/05/08 arXiv:1607.01759v3 wdndev

大型语言模型 (LLM) 的巨大发展凸显了海量、异构和高质量数据的重要性。数据配方是来自不同来源的数据的混合,用于训练 LLM ,这对 LLM 的表现起着至关重要的作用。现有的 LLM 数据处理开源工具大多是针对特定数据配方量身定制的 ...

0 0 0 0 2024/05/08 arXiv:2309.02033v3 wdndev

大型文本语料库是语言模型的支柱。然而,我们对这些语料库的内容了解有限,包括一般统计数据、质量、社会因素以及评估数据的包含(污染)。在这项工作中,我们提出了“我的大数据中有什么?” (WIMBD),一个平台和一组十六种分析,使我们能够揭示和比较大型文本语料库的内容 ...

0 0 0 0 2024/05/08 arXiv:2310.20707v2 wdndev

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)