wdndev的文档

wdndev

个性签名 ...

Proving Test Set Contamination in Black Box Language Models

大型语言模型是根据大量互联网数据进行训练的，这引发了人们的担忧和猜测，即它们已经记住了公共基准。从推测到污染证明具有挑战性，因为专有模型使用的预训练数据通常无法公开访问。我们证明，无需访问预训练数据或模型权重，就可以为语言模型中的测试集污染提供可证明的保证 ...

0 0 0 0 2024/05/14 arXiv:2310.17623v2 wdndev

Bag of Tricks for Efficient Text Classification

本文探索了一种简单有效的文本分类基线。我们的实验表明，我们的快速文本分类器 fastText 在准确性方面通常与深度学习分类器相当，并且训练和评估速度快了许多数量级。我们可以使用标准多核 CPU 在不到 10 分钟的时间内训练超过 10 亿个单词的 fastText，并在不到一分钟的时间内对 312K 类中的 50 万个句子进行分类 ...

0 0 0 0 2024/05/08 arXiv:1607.01759v3 wdndev

Data-Juicer: A One-Stop Data Processing System for Large Language Models

大型语言模型 (LLM) 的巨大发展凸显了海量、异构和高质量数据的重要性。数据配方是来自不同来源的数据的混合，用于训练 LLM ，这对 LLM 的表现起着至关重要的作用。现有的 LLM 数据处理开源工具大多是针对特定数据配方量身定制的 ...

0 0 0 0 2024/05/08 arXiv:2309.02033v3 wdndev

What's In My Big Data?

大型文本语料库是语言模型的支柱。然而，我们对这些语料库的内容了解有限，包括一般统计数据、质量、社会因素以及评估数据的包含（污染）。在这项工作中，我们提出了“我的大数据中有什么？” （WIMBD），一个平台和一组十六种分析，使我们能够揭示和比较大型文本语料库的内容 ...

0 0 0 0 2024/05/08 arXiv:2310.20707v2 wdndev

Proving Test Set Contamination in Black Box Language Models

Bag of Tricks for Efficient Text Classification

Data-Juicer: A One-Stop Data Processing System for Large Language Models

What's In My Big Data?

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）