\blacksquare\square

MAP-Neo:高能透明

双语大语言模型系列

M-A-P, University of Waterloo, Wuhan AI Research, 01.AI
摘要

近年来,大型语言模型(大语言模型)取得了长足的进步,在不同任务上取得了前所未有的性能。 然而,出于商业利益的考虑,GPT、Gemini 和 Claude 等最具竞争力的模型已被隐藏在专有接口后面,而没有透露训练细节。 最近,很多机构都开源了像LLaMA-3这样的几个强大的大语言模型,可以与现有的闭源大语言模型相媲美。 然而,仅提供了模型的权重,大多数细节未公开(例如,中间检查点、预训练语料库和训练代码等)。 为了提高大语言模型的透明度,研究社区已经形成开源真正开放的大语言模型(例如Pythia、Amber、OLMo),并提供更多细节(例如预训练语料库和训练代码) 。 这些模型极大地推进了对这些大型模型的科学研究,包括它们的优点、缺点、偏差和风险。 然而,我们观察到,现有的真正开放的大语言模型在推理、知识和编码任务方面仍然不如现有的具有相似模型大小的最先进的大语言模型。 为此,我们开源了 MAP-Neo,这是一个高性能且透明的双语语言模型,具有 7B 个参数,在 4.5T 高质量 Token 上从头开始训练。 我们的 MAP-Neo 是第一个完全开源的双语大语言模型,其性能与现有最先进的大语言模型相当。 此外,我们开源了所有细节来重现我们的 MAP-Neo,其中包含清理后的预训练语料库、数据清理管道、检查点和优化良好的训练/评估框架111https://github.com/multimodal-art-projection/MAP-NEO 是假如。 最后,我们希望我们的MAP-Neo能够增强和加强开放研究社区,激发更多的创新和创造力,以促进大语言模型的进一步完善。

Refer to caption
图1: 与流行的开放权重和最近大小相似的透明大型语言模型相比,MAP-Neo 在基础()和聊天()模型上表现出了令人印象深刻的性能。

1简介

GPT-4 [1]、Claude [4]、Gemini [80]等通用大语言模型(大语言模型)的出现t2> 显着扩展了自然语言处理 (NLP) 的边界,并为通用人工智能 (AGI) 铺平了道路。 这些模型表现出普遍的能力,包括复杂推理[116, 89]、角色扮演[107]、创意写作[105]、心理评估[112]、科学教育[18]和音乐生成[115,75,29]等。 然而,由于商业利益[1,4,80],最先进的仍然是闭源的。 在本文中,我们认为开源和透明的大语言模型对于大语言模型的民主化和进一步的学术研究至关重要,特别是考虑到这些模型消耗的大量资源。

之前的作品已经发布了众多开源甚至透明的大语言模型。 例如,LLaMA系列[101,102,3]发布了权重,极大地促进了开源大语言模型社区的发展。 然而,他们并不透明,因为他们没有透露训练数据的细节。 BLOOM [86] 训练了具有 1760 亿个参数的多语言语言模型,并开源了其模型权重、中间检查点和训练语料库。 LLM360 [66] 和 Pythia [9] 等模型进一步提供了训练代码、优化器状态检查点、分析代码和数据管道。

这些模型对构建透明生态系统做出了重大贡献,但普遍落后于LLaMA [3]、Mistral [48]和Yi 等行业级大语言模型[113]等。OLMo [36]通过改进预训练数据和数据处理管道,并引入更多开源组件,在缩小这一差距方面取得了巨大进步,包括训练日志和消融。 尽管如此,它仍然不够熟练,特别是在编码(HumanEval [15])、推理(MATH [41]、GSM8K [23])等领域>)、知识(MMLU [40])和多语言能力(CMMLU [60])。

为了解决这些问题,我们推出了MAP-Neo,这是一个完全开源、透明的双语大语言模型套件,它具有卓越的性能,缩小了与闭源模型的差距。 具体来说,构建大语言模型的整个流程包括:

  1. 1.

    数据管理管道:我们提供训练数据(中英文)的管理和清理的代码,包括稳定的 OCR 系统、DeepSeek-Math 中的数据调用机制[89] ,集成了之前开源的数据处理管道,支持基于Spark的分布式数据处理222https://spark.apache.org/等。

  2. 2.

    数据:我们发布了预训练语料库,即矩阵数据堆,以及用于监督微调和对齐训练的训练数据。

  3. 3.

    模型架构:我们提供建模架构的代码和详细信息。

  4. 4.

    模型训练:我们为分词器、基础模型、指令调整模型和对齐模型提供训练代码。 此外,我们还解决了 Megatron-LM 框架的一些问题333https://github.com/NVIDIA/Megatron-LM,增强了对更强大、更高效的分布式训练的支持。 此外,我们引入了 NEO 缩放法则,旨在使用来自不同语料库的预训练数据集来优化大语言模型的缩放。

  5. 5.

    模型检查点:我们不仅在 HuggingFace 上发布最终模型,而且还提供中间检查点以实现可重复性。

  6. 6.

    基础设施:此报告详细介绍了稳定版的基础设施。

  7. 7.

    评估:我们还提供详细的评估代码和完善的评估设置,用于对大语言模型的性能进行基准测试。

  8. 8.

    分析与教训:本报告详细阐述了多种技术和配方,例如预训练不同阶段的优化技巧,并通过严格的分析和消融提供了构建大语言模型的见解。

我们的工作是迈向完全透明、具有先进能力、甚至可以与顶级闭源大语言模型竞争的里程碑。 值得注意的是,我们的贡献不仅仅是一个新颖的基础模型,而且是一本从头开始构建大语言模型的综合手册,涵盖了整个工作流程。 我们相信我们的模型为社区,特别是世界非英语地区从事大语言模型研究提供了重要的参考。

2相关作品

表格1: 与其他开源大语言模型(大语言模型)进行比较。 所有指标均采用相同的评估方式获得,具体如表9所示。 虚线上方列出了非透明模型,下方显示了透明大语言模型。
Model Intermediate Pre-training Reproduction Data Cleaning C-EVAL MMLU GSM8K HumanEval
Checkpoints Corpus Code Process
Mistral-7B [48] 47.54 64.04 47.46 28.0
LLaMA2-7B [102] 32.37 46.80 16.22 13.4
LLaMA3-8B [3] 49.83 66.52 54.74 33.5
Pythia-6.9B [9] 24.64 26.39 3.41 9.1
Amber-7B [66] 23.82 28.07 3.64 13.4
OLMo-7B [36] 35.21 53.52 28.43 11.6
MAP-Neo-7B 57.68 58.14 53.68 23.8

开源大语言模型的开发对于推进人工智能研究和应用至关重要。 该领域最近的工作重点不仅在于提高模型性能[48, 3],还在于确保透明度和可重复性[9,66,36,128] 我们的模型 MAP-Neo-7B 成为这一不断发展的格局中的新领导者,如表 1 所示,它平衡了性能和透明度。

MAP-Neo 模型系列在强调完全透明方面向前迈出了一步,与其他当代模型(如 Mistral [48]、LLaMA3 [3]、Pythia [9]、琥珀色 [66] 和 OLMo [36] 这些模型通常缺乏中间检查点、全面的数据清理过程或可访问的预训练语料库和复制代码,而 MAP-Neo 与这些模型不同,它通过集成所有这些元素而表现出色。 对 MAP-Neo 开放性的承诺促进了研究界的深入分析和独立验证。

在性能方面,MAP-Neo-7B 在广泛的基准测试中表现出了卓越的能力,包括对 C-EVAL [46] 和 MMLU [20] 的中文和英文理解, GSM8K [23] 和 MATH [41] 的数学能力,以及 HumanEval [15] 的代码能力。 值得注意的是,MAP-Neo-7B是我们对比分析中唯一一个在透明度方面全部通过检查的模型,并且与其他透明大语言模型相比,在所有测试中得分最高,凸显了训练的有效性和训练的质量。数据。

与MAP-Neo最相似的工作是OLMo[36],这是完全开源大语言模型的开创性工作。 然而,它们的性能在知识、编码和数学推理等几个方面受到了影响。 此外,OLMo 无法处理英语以外的语言。 MAP-Neo 为开源大语言模型领域的透明度和性能树立了新标准。 通过促进完全透明的开发过程,MAP-Neo 不仅增强了其实用性和可信度,而且还为未来的研究提供了一个有价值的框架,促进了社区的进一步进步和协作。

3 分词器

我们通过 SentencePiece [56] 的实现,使用字节对编码 (BPE) 算法 [88] 来训练我们的分词器。 训练数据由来自预训练语料库的50B个样本组成,最大长度被削减为64K。 我们为代码、数学和高质量学术数据分配更高的采样权重。 为了平衡计算效率和模型性能,我们建议将词汇量设置为64000,并将最大句子长度限制为16,以提高中文性能。

值得注意的是,我们将所有数字分割成单独的数字,并将未知的 UTF-8 字符回退到字节粒度。 我们不对训练样本使用任何标准化策略,也不添加虚拟前缀。 字符覆盖率设置为0.9999。 特别是,删除多余空格参数设置为 False,该参数在 SentencePieceTrainer 中默认打开。 此设置会严重影响预训练期间的代码性能,因为正常的代码缩进被视为单个空格。 我们在模型预训练的初始阶段遇到了一个具体问题。 最初,我们没有禁用“删除多余空格”参数,该参数在 SentencePieceTrainer 中默认启用。 在训练过程中,我们观察到 QA 推理和数学基准的稳步改进,但代码指标出现波动并且没有显示出预期的改进。 为了解决这个问题,我们在训练的第二阶段(§6.2)修复了这个错误,从而稳定并显着提高了代码指标。 此外,我们观察到这个问题在新的分词器设置下的衰减阶段训练阶段得到了很好的解决,并实现了快速改进。

此外,我们还调查了各种数据类别的压缩率,按语言(中文和英文)和数据源质量(高质量和网络来源)进行分类,如表2所示。 具体来说,首先,我们观察到包括复杂推理、数学和常识文本在内的高质量数据(HQ),中文(HQ_cn)和英文(HQ_en)之间表现出不同的压缩率。 HQ_cn 类别的压缩率为 1.577,而 HQ_en 类别的压缩率更高,为每个词符 3.311 个字符。 其次,来自网络(Web)的数据所包含的字符也多于中文字符。 这表明语言之间的标记化效率或字符使用存在显着差异,这可能是由于语言结构和标记化方法所致。 第三,应该提到的是,即使压缩率相似,分词器的设置也可能会导致预训练过程出现显着波动。 因此,仍有必要进一步研究后续使用场景的 Token 化策略。

表2: 按类别划分的平均压缩率。 这些子集在训练集中的比例并不均匀。 详细分布参见附录18
Code HQ_cn HQ_en Web_cn Web_en Others
2.951 1.577 3.311 1.418 3.699 2.558

4矩阵数据堆

Refer to caption
图2: 矩阵堆数据分布统计:内层饼图表示语言分布,外层循环表示语料库中元类别的比例。

人们普遍认为,构建良好的训练训练语料库对于大语言模型至关重要。 训练语料库是推动语言建模进步的动力,ChatGPT、Claude、Gemini 和 Llama 等模型的新兴功能就证明了这一点。 但由于知识产权限制,这些(部分)专有的大语言模型的预训练数据和处理工具包在发布时并未公开。 尽管开源研究社区在提高语言模型预训练数据收集和处理流程的透明度方面做出了巨大努力[9,86,95],但完全开源的大数据的开发语言模型在某种程度上仍然落后于专有的大语言模型,这主要是由于数据集数量和质量上的差距。

为了满足语言建模中对更加多样化和透明的数据集的迫切需求,我们引入了 Matrix,一个 4.5T Token 的双语预训练语料库。 Matrix一旦发布,可能会成为据我们所知最大的透明大语言模型预训练语料库。 具体来说,Matrix 提供了数据收集和处理的详细信息以及高性能工具包。 此外,我们基于各种实际情况下检索、过滤和清洗高质量数据的思想来设计Matrix,讨论如下:

  • 给定一组现有的(英文)预训练数据集,我们如何重新处理并提高质量 §4.1

  • 我们如何针对较少探索的中文内容从头开始构建一个大规模、主题全面的语料库?§4.2

  • 如果我们有大量的印刷文档,我们如何构建一个高效且有效的系统来提取可行的文本内容? §4.3

  • 当指定感兴趣的域时,我们如何从大量的网络内容中找到相关的高质量数据? §4.4

最终的语料库构成如下:52.55%来自Common Crawl,22.29%来自编程代码,其余来自学术论文、书籍和其他印刷材料,如图2所示。 处理这些源的详细方法将在后续章节中介绍,表 16 中提供了源的全面说明。

表3: 重新加工的英语网络子集的作文来源。 比例表示当前数据集的大小除以整个数据集的总大小。
Dataset Parts UTF-8 bytes (TB) Availability Proportion (%)
RedPajama-Data-V2 [25] Head and Middle 200 Public 92.38
Dolma [95] CC 6.4 Public 2.96
Cultrax [72] EN 1.2 Public 0.55
Amber [66] Refined-Web 4.23 Public 1.95
SlimPajama [94] Whole 2.43 Public 1.12
Falcon [74] Whole 1.01 Public 0.47
CultraY [100] EN 1.24 Public 0.57

4.1 开放数据集的重新处理管道

尽管之前的工作[95, 74]已经发布了几个经过处理的预训练语料库(主要是英语),但我们认为仍然有一个更精心设计的管道来改进现有数据的空间。 此外,值得一提的是,现有的大语言模型可以通过高质量数据的持续预训练轻松改进。 因此,我们进一步重新处理所选的基于网络内容的语料库,以生成矩阵数据混合的英语子集。 来源来自RedPajama-Data-V2的Head和Middle部分[25],Dolma的CC部分[95],Cultrax 的EN部分[ 72]、Amber [66]、SlimPajama [94] 和 falcon [74] 的 Refined-Web 部分。 我们的英语数据集的精确分布列于表3中。 该过程涉及过滤和多步骤重复数据删除。 3(a)中的图表显示了处理订单和保留率。

4.1.1 过滤

为了进一步从开源数据集中过滤掉质量相对较低的语料库,我们建议使用启发式规则进行文本过滤。 这些规则旨在识别和删除质量较差的数据,从而防止由于预训练语料库有缺陷而导致潜在的模型性能下降。 由于我们的复合数据集由多个来源的语料库组成,因此我们采用精心设计的清理方法[74,14,76,78]并为每个数据集定制我们的规则以确保质量一致性。

对于为每个文本提供质量注释的 RedPajama-Data-v2 数据集 [25],我们将启发式规则与这些注释相结合,以细化数据质量评估,并进一步对数据集进行随机采样以确认每个规则的阈值。 对于缺乏质量注释的数据集,我们应用从 RedPajama-V2 派生的既定规则和阈值,同时对其进行自定义以符合每个数据集的独特特征。 例如,卓玛数据集[95]包含六个子集,分别是Wikipedia、PeS2o、Stack Code、Gutenberg、C4和CC,每个子集具有不同的数据特​​征。 鉴于每个子集的独特特征,我们进行单独抽样和评估,以确保规则和阈值的修改符合我们的过滤要求。 具体来说,对于 CC 子集,我们调整唯一单词和文本长度阈值。 对于主要包含书籍文本的古腾堡子集,我们仅应用一些规则来避免对长文本执行广泛的启发式检查的耗时过程。

过滤过程包括: 1)文档级和句子级过滤,确保文本长度充足、字符有意义和一致性; 2)重复文本去除,包括n-gram和句子; 3) 敏感词检查,消除包含黑名单术语的文本。

4.1.2 重复数据删除

据报道,重复文本会导致模型性能下降[58,51,42],这使得去重成为语料库处理中的关键步骤。 通过消除重复,我们可以显着降低训练记忆率,并使模型更加高效[58] 重复可以分为完全重复和接近重复。 对于精确的重复项,我们采用精确的文档重复数据删除来删除它们。 对于接近重复的数据,我们利用 Minhash LSH 重复数据删除来尽可能地删除它们。 此外,在某些情况下,文本的某些部分完全重复,在这些情况下,Minhash 方法很难删除它们。 为了解决这个问题,我们采用了两种方法来部分删除此类内容:段落去重和精确子串去重。

精确的文档重复数据删除

精确文档重复数据删除是一种用于评估整个文本以确定其是否与另一个文本相同的方法。 如果发现完全相同,则重复的将被删除。 为了处理英文数据,使用Spark来处理数据集。 由于数据量巨大,可能会出现内存不足的问题。 该问题的解决方案是将文本数据分批放入单独的存储桶中进行存储。 然后依次处理每个桶的数据以删除重复项。

Minhash LSH 重复数据删除

Minhash [13] 是一种去除近似重复的优秀方法,特别是对于网页数据,广泛用于大型数据集中的相似性搜索和重复检测[104, 33, 37]. 它可以处理非常常见的场景,即文本内容基本相同,但网页分散的模板块不同。 MinHash的原理是用较小的哈希值表示一个集合,然后可以用来估计两个集合之间的Jaccard相似度[47]:Jaccard(A,B)=(AB)/(AB)

MinHash 涉及使用多个不同的哈希函数,将集合中的每个元素映射到更大的数值域。 对于每个集合,这多个哈希函数被应用于集合内的所有元素,并且选择每个哈希函数产生的最小哈希值作为其最小哈希值。 因此,每个集合都可以由这些最小哈希值的向量表示,形成该集合的 MinHash 签名。 对于文本数据,可以使用 n 元语法方法来构造集合。

获得文本签名后,采用局部敏感哈希(LSH)[35]快速识别Jaccard相似度超过一定阈值的候选集对。 这加快了类似项目的搜索过程。 具体做法是将签名分为几个带,每个带包含多个哈希值。 然后使用另一个哈希函数将每个带映射到哈希桶。 所有具有相同带散列的集合都映射到相同的散列桶。 同一哈希桶中的所有集合对都被视为候选相似对,而无需进一步明确它们的相似性。 在这里,我们利用 128 个独特的哈希函数来形成签名,分为 9 个频段,每个频段包含 13 个哈希值。 因此,Jaccard 阈值设置为 0.8。

在识别出相似对后,就构建了连接的组件。 在连接组件的每个组件中,保留一个文本,而删除其他文本。 为了高效处理海量数据,采用了基于map-reduce的分布式实现[53]

段落重复删除

段落重复数据删除涉及删除文本中的所有重复段落。 段落定义为由换行 UTF-8 字符“\n”分隔的文本部分。 段落重复数据删除是删除网站导航标题、广告和类似元素的有效方法。 由于段落去重涉及删除部分文本,因此可能会对内容分析造成一些干扰。

其具体实现首先涉及使用换行utf-8字符“\n”将文本拆分为多个段落,每个段落都标记有其对应的文档id和文本中的偏移量。 然后,使用 SHA256 对每个段落进行哈希处理。 接下来,对哈希值进行重复数据删除。 去重后,根据文档ID和偏移量恢复去重后的文本。

精确子串去重

该方法遵循[58] 考虑到语言的多样性,当重复文本的长度足够长时,它们很可能是相互衍生的或源自相同的参考文献。 因此,当两个文本 titj 共享足够长的子字符串,即 tia..a+k=tjb..b+k 时,其中一个将被删除。 对于长度阈值的选择,我们遵循[58]中的设置,选择k=50。 由于我们的分布式环境,单个节点的内存不足以容纳所有数据。 因此,我们没有采用[58]中的实现。 在我们的工作中,我们将每个文本分割成 50 个字符的滑动窗口,步长为 1。 然后,我们计算每个窗口的 SHA256 哈希值及其相应的文档 ID 和偏移量。 随后,对于具有相同哈希值的窗口,我们将它们标记为除第一个之外的重复项。 最后,使用文本ID和偏移量,恢复原始字符串,并根据重复标记决定是否删除片段。

Refer to caption
(a) Re-processing retention rates for the corpora in §4.1.
Refer to caption
(b) Processing retention rates for the corpora crawled from scratch in §4.2.
图3: 两个主要数据管道的漏斗图。 每行的深色部分代表每个处理步骤的保留比例,浅色部分代表过滤后的语料库。

4.2 从头开始进行语料库爬取管道

我们进一步提供了一个管道,从头开始抓取和处理网络内容,并用中文数据展示它,这可以为后续研究建立新的最新语料库提供逐步指南。 我们将这样的流程中生成的语料库作为 Matrix 的中文子集,其中 80.6% 来自我们爬取的中文网页,其他来自多个开放数据集,如表 4 管道概述和详细信息如图3(b)所示。

表 4: 中文网络子集的构成来源。
Dataset Parts UTF-8 bytes (TB) Availability Proportion (%)
Crawled Web Data Whole 14.3 Self-constructed 80.60
CCI Whole 0.10 Public 0.59
Chinesewebtext [14] Whole 1.40 Public 7.89
Wanjuan [38] Text 0.57 Public 3.19
Yayi2 [69] Whole 0.49 Public 2.76
Cultrax [72] ZH 0.28 Public 1.56
Skypile [109] Whole 0.60 Public 3.41

4.2.1 过滤

中文数据集的过滤规则是专门为解决其独特的挑战而定制的,与§4.1中应用于相对处理良好的英文数据集的过滤规则不同。 考虑到中文数据集中 HTML 转换的数据所占比例很大,我们重点关注消除 HTML 相关的工件并纠正文本不一致。 此外,鉴于中文和英文之间存在显着的语言差异,我们对中文数据集中的文档进行有针对性的抽样,旨在重新评估和调整我们的过滤规则的阈值和细节,确保其适合中文文本独特的语言特征。 例如,我们细化了区分中文文本中“字符”和“单词”的规则,并相应地调整了标记化方法。

我们的中文过滤步骤与过滤大规模适当预训练中文语料库(MAP-CC)的规则类似[30]:1)数据格式统一,以提高处理效率。 2) 网址删除。 该步骤分两个阶段进行:首先,删除黑名单T1中列出的URL的文本;其次是全面清理,消除残留URL。 3) 句子级和文档过滤,丢弃过于简短、不合格或逻辑不连贯的文本。 4)。 重复删除,包括 n 元语法和句子。

4.2.2 重复数据删除

中文数据去重包括精确文档去重、MinHash去重、相似行去重。 由于在处理中文的环境中部署Spark比较困难,我们重新实现了前两种方法。 对于Exact Document Deduplication,与英文的实现略有不同,主要是为了节省内存,我们采用了Bloom Filter的方式,并将Bloom Filter的误报率设置为0.001。 关于 Exact Document 和 MinHash LSH 重复数据删除的讨论可以在§4.1.2中找到。

我们没有使用Exact子串重复数据删除,因为在抓取网页时,通常会在信号文档中多次重复抓取相同的内容。 此外,从 HTML 中提取正文时,通常会丢失一两个单词。 这两种情况的结合违反了[58]中的假设,即“同一个想法很少在多个文档中得到相同的表达,除非一个表达源自另一个表达,或者两者都引用自一个共享的来源。”因此,Exact子串去重后,会出现保留多余单词的情况,大大降低文本的可读性。 因此,我们提出了一种相似线重复数据删除方法来解决这个问题。

4.2.3 相似行去重

为了解决文本中多次出现相同内容的情况,一种直接的方法是使用特定的分隔符将文本分成几行,然后比较每行之间的相似度。 如果它们相似,则删除后续行。 行的划分包括使用以下分隔符:“[”、“.”、“!”、“?”、“\”、“……”、“]”。 我们使用编辑距离来判断两行L1L2是否相似,如下所示:

isSimilar(L1,L2)={Truemin(|L1|,|L2|)15editDist(L1,L2)<0.1×min(|L1|,|L2|)Truemin(|L1|,|L2|)<15L1=L2Falseotherwise,

其中 |L| 是行 L 的长度,“editDist”是编辑距离的缩写。

由于计算编辑距离O(len(L1)×len(L2))的计算复杂度,为了加速这个过程,我们额外提出了两种判断不相似性的方法:

  1. 1.

    两条线之间的长度差是否大于较短线长度的十分之一?

  2. 2.

    L1L2中字符集的交集与字符集并集的比例是否小于三分之一?

请注意,第一个方法的计算复杂度为 O(1),第二个方法的计算复杂度为 O(len(L1)+len(L2)) 因此,这些方法可以显着提高计算速度。 显然,如果上述两个问题中的任何一个是肯定的,则不能认为这些线是相似的。 否则,我们计算isSimilar(L1,L2)以获得L1L2之间的相似度。

Refer to caption
图4: 文档转换框架由不同部分的各种子模型组成。

4.3 文档转换管道

与嘈杂的网络内容相比,这些文档通常格式更好、主题更集中、表达更一致。 然而,它似乎是一个高质量语料库的金矿,只是金子深埋在数字污垢之下。 此类数字文档大多存储为具有不同布局的标准 PDF 或质量不一致的扫描图像,这使得构建数据集具有挑战性。 我们在设计有效的转换管道以从文档中提取纯文本时观察到两个核心问题:i)分析布局信息并识别不同的布局元素,包括文本、标题、说明文字、图像、表格和公式,以及 ii)识别这些元素之间的关系布局组件。

我们调查了现有的文档转换开源解决方案,发现了一些性能良好的杰出项目:PP-StructureV2 [59]、Marker444https://github.com/VikParuchuri/marker,变化[108] 和牛轧糖 [11] 然而,除了各自的优点之外,它们都存在一些局限性,可以通过解决这些局限性来进一步提高性能:PP-StructureV2 无法识别 LaTeX 格式内容和必要的后处理阶段;标记和 Texify555https://github.com/VikParuchuri/texify支持的语言较少,不能有效地处理数字; Nougat 对多列数据和可识别语言的支持有限; Vary 和 Vary-toy 需要大量的计算资源。 因此,我们提出了一个由解开的处理组件组成的框架,使我们能够共同利用这些模型的优势。 例如,我们利用 Marker 来增强语言支持,利用 PP-StructureV2 来实现高效的布局解析。 如图4所示,我们的文档转换框架由四个部分组成:布局检测、元素识别、排序和后处理。 各个模块之间的解耦增强了可解释性,简化了各个组件的升级、添加和更换。

布局检测

将文档分割为多个部分,例如公式、文本、页眉和页脚。 Pipeline采用了PP-StructureV2提供的轻量级目标检测模型,该模型计算效率高且性能优异。 通过采用 FGD(特征梯度下降)算法进一步增强了该模型的性能,该算法优化了特征提取以实现更准确的布局检测。

元素识别

结合了各种模型来识别不同的元素。 在公式识别方面,通过Pix2Text训练的TrOCR模型优于Latex-OCR、Taxify等其他公式识别模型,支持段落内嵌公式和非常规公式的识别,有效解决了大部分公式识别场景。 文本识别采用PP-OCRv4,文本识别采用PP-OCRv4,兼容多种计算设备,识别能力强;已经公开发布了大约一百种语言识别模型,适用于更广泛的文档识别任务。 图形保存为图像并插入到后续的合并阶段。 表重建是使用 SLANet 实现的,它以 HTML 格式表示表。 其他区域(例如页眉、页脚和页码)将被丢弃,并且不会进入后处理和重建阶段。

订购

在文档转换任务中,正确处理块之间的关系至关重要。 为了获取高质量的转化数据,我们需要妥善处理多列、跨页等复杂的布局场景。 在排序阶段,我们使用LayoutLMv3 [45]进行列检测并根据特定规则对不同区域进行排序。 这种策略不仅提高了任务的准确性,而且还显着优化了可读性。

后期处理。

OCR提取的文本通常无法直接使用,需要进行如下额外处理:

  1. 1.

    破碎的句子:在从图像中提取的文本中,句子可能会分散在不同的行或页面上,从而导致单个句子被分成多个片段。 有效的 OCR 文本提取需要识别和重新连接这些碎片句子,以重建连贯、完整的句子。

  2. 2.

    带连字符的单词:由于格式限制,某些单词可能会在文本中分成两部分,并通过连字符连接(例如,网络)。 文本提取必须识别这些连字符的单词并将它们合并回单个完整的单词(例如,网络)。

  3. 3.

    数学公式损坏:Markdown 中的 ORed 数学公式可能会遇到元素缺失、符号不正确或表达式支离破碎等问题。 为了解决这个问题,我们在监督学习数据对 (xi,yi) 上构建了一个 70 亿参数的开源预训练语言模型 [7] 这里,xi表示检测和纠正给定文本中的错误的指令,yi表示纠正后的输出文本。 我们采用 vLLM,通过使用 PagedAttention 进行注意力键和值的量化和高效内存管理以及其他优化,实现更快的推理。 附录A.10中提供了用于处理两种语言的提示模板。

通过整合这些策略,我们可以显着提高 OCR 文本的质量和连贯性,减少常见错误并增强提取内容的整体可读性和可用性。 我们使用 FastDeploy666https://github.com/PaddlePaddle/FastDeploy,一个高效的AI推理部署工具,作为我们实现的代码库,它可以充分利用多线程的优势来优化推理速度和计算开销。 总体而言,在保持性能和部署效率的同时,我们提供了一个涵盖全面场景的文档转换框架,包括识别布局信息、支持表格重构、公式识别等。

4.4高质量补充数据收集

在本节中,我们介绍了高质量补充数据收集的方法,该方法适用于各种主题并增强了数据集的稳健性。 [89]的启发,采用迭代管道方便从Common Crawl中获取大规模、高质量数据,我们建议选择高质量数据用于数学、科学考试合成数据,以及我们矩阵中基于 wiki 的内容。

迭代管道的过程阶段列举如下:

  • 种子数据集收集: 收集感兴趣领域的高质量种子数据集,例如数学、代码或基于 wiki 的内容。

  • 域定义和采样: 将域定义为共享相同基本 URL 的种子数据集中的数据条目,并从种子数据集中的每个域中提取样本作为正样本,以增强格式多样性。 相应地,从Common Crawl中获取等量的数据作为负样本。

  • 模型训练: 采用 FastText 模型 [50] 进行二元分类,以辨别数据与指定字段的相关性。 训练参数设置如下:三个epoch,学习率为0.1,嵌入维度为256,n-gram为3。 该模型经过量化,可在有限的内存容量内提高运行效率,将其大小减少至原始占用空间的约 10%。

  • 数据置信度评估: 利用经过训练的 FastText 模型来估计 Common Crawl 数据合格的置信度。 保留从最高置信度到最低置信度排序的数据。 为了简化置信度排序过程,首先对数据子集进行采样,以建立一个可行的阈值,以平衡数据排除与保留需求。

  • 数据评估: 通过 ChatGPT 3.5 [1] 评估保留的数据,使用 URL 来确定字段特异性。 此阶段的目的是减少误报的发生率,同时保持必要的召回率。

  • 数据调用和标注: 重新审视超过 10% 的数据被认为是特定领域的领域。 通过 URL 使用 ChatGPT 3.5 [1] 注释此数据子集。

  • 模型细化和迭代: 将先前训练迭代中未经确认的正数据整合到正样本中,以使 FastText 模型的基础多样化。 随后,从训练阶段开始启动新的迭代周期。

Common Crawl 的数据选择重点关注 RedPajama V2 数据集[25]的英文内容。 数学部分的种子数据集来自 OpenWebMath [6],而科学合成数据集来自特定领域,例如 Chemrxiv、biorxiv,以及来自开源数据集的专有爬行练习数据,例如wanjuan-exam [38]、WebInstruct [117]、Web Of Science [55] 维基数据直接从维基网站获取。

5型号

5.1模型架构

MAP-Neo 模型架构基于 Vaswani 等人 [103] 概述的 Transformer 解码器。 5详细介绍了定义该架构的基本参数。 这些模型使用 8192 个标记的上下文长度进行训练,并结合了在原始 Transformer 概念之后提出的多项增强功能。 下面列出了这些增强功能:

多查询注意力 [92] 7B 模型变体采用多头注意力,而 2B 模型检查点使用单个键值头配置 (num_kv_heads =1) 实现多查询注意力。 此修改基于消融研究,表明多查询注意力在更小尺度上特别有效[92]

RoPE 嵌入 [97] 我们没有使用传统的绝对位置嵌入,而是在每一层使用旋转位置嵌入,并在输入和输出之间共享这些嵌入,从而最小化整体模型大小。

RMSNorm 为了确保训练稳定,每个 Transformer 子层(包括注意力层和前馈层)均使用 RMSNorm [120] 进行归一化。

激活函数 我们使用 SwiGLU [93] 作为我们的激活函数。

5.2 模型规模超参数

在这项工作中,我们比较了两种不同的模型尺度:2B 和 7B 参数。 由于这些模型是标准的密集变形金刚。 这些模型是使用表5中的超参数构建的。 这两个模型使用相同的词汇和批量大小进行相同的训练(训练数据除外)。 训练详细信息如§3和§5.1所示。

表 5: 模型架构细节。 我们列出层数、dmodel、注意力头数量和注意力头大小。 前馈大小dff始终为8×dmodel
Model # Layers # Heads dmodel # Feedforward dims # KV heads
MAP-Neo 2B 18 8 2048 16384 1
MAP-Neo 7B 28 16 3072 24576 16
表 6: 模型训练详细信息。
Phases Learning Rate Weight Decay Warmup Ratio Batchsize
Pre-training (Fundamental Phase) 2e-4 0.1 0.0055 1024
Pre-training (Decay Phase) 2e-4 0.1 0 1024
SFT (Fundamental Phase) 2e-5 0 0.05 512
SFT (Chat Phase) 2e-5 0 0.05 512
Iterative DPO 5e-6 0 0.1 256

6预训练

在预训练过程中,我们采用两阶段预训练策略来训练 MAP-Neo 模型。 第一阶段称为基础阶段,涉及在大量通用文本语料库上训练模型,以开发其通用文本生成能力。 随后,在衰减阶段,我们专注于通过合并高质量数据和模式代码数据来增强模型生成内容的可靠性。 不同阶段使用的数据分布如图5所示。 请注意,我们在衰减阶段增加了代码数据量。 具体来说,在基础阶段,由于 Stack V2 [68] 尚未可用,我们利用 Stack V1 [54] 并重复数据集两次以实现平衡的数据比例。 在衰减阶段,随着 Stack V2 [68] 的发布,我们将其合并为训练的代码组件。 此外,我们还进行了进一步的数据分布调整,包括重复的高质量数据源,例如书籍、司法判决和政府报告等用于训练,以提高模型的性能。 预训练训练使用的开源数据如表16所示,数据重复详情如表17所示,超参数如表6

Refer to caption
图5: MAP-Neo预训练阶段的数据混合比例。 是基本相位,显示衰减相位。

6.1基础阶段:通用能力习得

在基础阶段,我们采用两阶段学习率调度器(LRS)为模型配备强大的一般文本生成功能。 LRS 被建模为分段函数,由初始预热阶段组成,其中学习率从基本率 ηa=2×105 线性上升到峰值学习率 ηmax=2×104,超过 twarmup=2k步骤。 接下来是余弦衰减阶段,在此期间,速率在大约 365k 步内逐渐减小回到 ηb=2×105 学习率f(t)作为时间t的函数可以描述如下:

f(t)={ηa+(ηmaxηa)ttwarmupif ttwarmupηb+(ηmaxηb)[12(1+cos(πttwarmupttotaltwarmup))]if twarmup<tttotal, (1)

其中 t 是当前时间步,twarmup 表示预热阶段的持续时间,ttotal 表示训练时间步的总数。 此学习阶段处理约 3,726 十亿个 Token ,确保模型在不同文本数据上的稳健训练。 这种对学习率的精心配置和广泛的处理优化了训练动态和效率,促进了模型能力的稳定成熟。

6.2衰退阶段:改进和纠正

由于§3中所述的训练分词器问题,尽管模型在基础阶段获得了强大的语言理解能力,但在代码生成任务中遇到了测试失败。 为了解决这个问题,我们引入了一个额外的衰减阶段,专门设计用于利用固定版本的标记器。 该衰减阶段的学习率从 ηc=2×104 开始,经过 tdecay=148k 步的指数衰减,半衰期 T 相当于 tdecay 步的一半,类似于 MiniCPM 采用的衰减阶段 [44],可表述如下:

f(t)=ηc×0.5tTif ttdelay, (2)

其中 t 是衰减阶段的当前时间步长。 这一战略调整不仅纠正了最初的标记化缺陷,还增强了模型在代码生成任务上的性能。 在此阶段,模型总共处理约778十亿个 Token ,这些 Token 主要由高质量的指令数据组成。 我们还同时将数据中代码的比例从14.77%增加到17.04% 这一调整显着增强了模型的整体性能。 通过更高比例的代码刻意丰富数据集,再加上教学输入,确保了更强大和通用的模型,擅长处理复杂的编码任务以及理解和生成不同领域的专业响应。

7对齐

7.1 监督微调

为了与大语言模型的人类行为保持一致,第一步是执行监督微调(SFT)。 我们的 SFT 也包含两个阶段。 第一阶段,我们收集大量的教学数据,提升大语言模型的基础能力。 在第二阶段,我们在第一阶段建立的功能的基础上,提出改进 MAP-Neo 的聊天功能。 此过程对聊天类型数据(包括查询和响应)进行预训练的大语言模型进行微调。 我们说明了数据构建和训练策略的细节。

7.1.1数据

基础阶段:增强指令跟随能力

在第一阶段,我们的重点是显着提高模型的基础能力(例如代码和数学技能),在此阶段我们利用超过 200 万个教学数据点。 具体来说,第一阶段包括整个 OpenHermes 2.5 [99],其中我们排除了与 TheoremQA 基准 [16] 相关的部分,以防止基准数据泄漏。 此外,我们还合并了完整的 Code-Feedback [125] 数据集和 WebInstructSub [117] 数据的子集。

聊天阶段:增强聊天能力

在第二阶段,我们专注于提高模型的聊天能力,同时保持第一阶段获得的基础技能。 为此,我们收集了超过 10 万条来自真实用户对话的多轮对话数据。 为了确保模型保留其基础功能,我们包含从第一阶段提取的 5k 数学和代码相关数据点。 我们的实验表明,SFT 的这一附加阶段显着提高了模型在聊天基准测试(例如 MT-Bench [124] 和 AlpacaEval [62] 上的性能,同时又不影响模型的性能)基础能力。

通过遵循这种两阶段方法,我们确保我们的模型不仅能够在基本技能方面保持坚实的基础,而且能够生成自然、有用且上下文准确的响应。

7.1.2训练

与预训练一致,我们还将下一个标记预测目标用作 SFT 的训练任务。 请注意,我们对系统和用户输入应用损失掩码。 该模型的训练过程使用 AdamW 优化器,其超参数如表 6 所示。

序列长度限制为8192,批量大小为512。 训练过程由使用相同超参数的两个阶段组成。 在第一阶段,该模型使用超过 200 万个教学数据点进行 3 个 epoch 的训练,重点是增强基础能力。 在第二阶段,使用超过 100k 多轮对话数据对模型进行 1 epoch 的训练,以增强其聊天能力,同时保持第一阶段获得的基础技能。

7.2 迭代 DPO

数据保护组织

直接偏好优化 (DPO) [77] 是一种将语言模型与人类反馈结合起来的简单有效的方法。 它将偏好损失[12]转换为语言模型上的损失函数,从而绕过了显式奖励建模[12]和强化学习[19的需要,87] 从表示为 πsft 的监督微调语言模型开始,DPO 收集数据集 𝒟={(x,yw,yl)i},其中包含 πsft 生成的两个响应之间的人类偏好: yw(首选)和 yl(不首选)到同一提示 x 使用该数据集,DPO 参数化语言模型πθ,并通过人类偏好数据集𝒟上的最大似然估计直接估计其参数,如下所示:

DPO(πθ;πsft,𝒟)=𝔼(x,yw,yl)𝒟[logσ(βlogπθ(yw|x)πsft(yw|x)βlogπθ(yl|x)πsft(yl|x))]. (3)
迭代 DPO。

我们按照 Storm-7B [64] 使用迭代 DPO [111] 管道来开发我们的聊天模型。 具体来说,我们采用三次迭代,每次迭代由三个阶段组成:1)生成配对响应,2)使用奖励模型标记响应,3)使用 DPO 损失训练大语言模型,如式(1)中所述。 3 我们利用 Nectar777https://huggingface.co/datasets/berkeley-nest/Nectar 作为我们的提示数据集和 Starling-RM-34B888https://huggingface.co/Nexusflow/Starling-RM-34B [126]4> 作为我们的奖励模型。 该模型根据 Yi-34B-Chat [113] 进行微调,并为任何给定的提示和响应生成标量输出。 为了保留模型的多语言功能,我们还采用了偏好数据集999https://huggingface.co/datasets/llm-wizard/alpaca-gpt4-data-zh

我们在表 7 中报告了 AlpacaEval2.0 [32] 的长度控制胜率,以展示我们模型的性能进步。 结果表明,每次迭代性能都会提高,这表明我们的模型越来越符合人类价值观。

表 7: MAP-Neo 在 AlpacaEval2.0 排行榜上不同迭代的长度控制胜率。 对于“SFT”,我们使用两阶段 SFT 报告模型的性能。
Model SFT Iteration 1 Iteration 2 Iteration 3
LC Win Rate (%) 9.77 10.02 15.59 16.65

8 MAP-Neo的缩放定律

8.1 问题定义

标度律能够预测大语言模型训练的训练配置。 该原则强调了训练数据量D(以 Token 衡量)与模型大小N(以参数衡量)之间比率的重要性。 在本节中,我们应用了公式 4 [43] 中的钦奇拉定律、公式 5 [52] 中的 OpenAI 定律、公式 6 [75] 中的符号音乐缩放定律推导以及我们提出的方法。<其中,ABEαβαcDcαNNcd为待优化的超参数。

L(N,D)=ANα+BDβ+E (4)
L(N,D)=((NcN)αNαD+DcD)αD (5)
L(N,D)=dNαDβ+ANα+BDβ+E. (6)

原始的 SMS 缩放法则对 Chinchilla 法则进行了两次修改。 第一个修改解决了训练数据的重复问题,这在我们的研究中没有考虑。 第二个修改涉及模型参数数量 N 和数据集大小 D 之间的交互。具体来说,它假设损失曲线作为D的函数,表示为BDβ,受到N的影响。模型参数数量和数据集大小之间的这种相互作用也反映在 OpenAI 缩放定律中。 然而,我们版本的 SMS 法则,如方程式所示。 6,与 OpenAI 框架中的相应模型相比,更简单并产生更好的结果。

拟合缩放定律的动机是在计算资源的限制下优化损失。 该过程被形式化为最小化验证交叉熵损失L,受到可用计算资源(C)施加的约束,特别是每秒浮点运算(FLOP),如下如下所示:

argminN,DL(N,D)s.t.FLOPs(N,D)=C (7)

鉴于我们的模型是在几乎非重复的高质量数据上进行训练的,我们利用训练损失而不是缩放法则应用的验证损失。

8.2 NEO缩放定律

我们使用 1000B 训练数据标记来训练大小为 250M、460M 和 980M 参数的模型。 然后,这些模型用于预测缩放法则,该法则指导在第 1 阶段在 3.07T (3065B) Token 上使用 7.8B 参数的模型的训练。 为了评估缩放定律的拟合度,我们采用实际对数损失和预测对数损失之间的 Huber 损失 (δ=1e3),以及真实损失和预测损失之间的 R2 值。 使用 LBFGS 算法执行缩放法则的优化。 这种方法在 Chinchilla 法则和象征音乐缩放法则中得到一致应用。 通过利用这些方法,我们的目标是确保缩放定律预测的准确性和可靠性,从而实现大规模语言模型的高效训练。

Refer to caption
图6: 训练损失值由蓝线表示。 Chinchilla 定律预测显示为黄色,NEO 缩放定律预测显示为绿色。 我们在 250M、460M 和 980M 上拟合 Chinchilla 定律和 NEO 定律,并预测训练样本和 7B 模型样本上的模型行为。

6展示了训练损失值以及龙猫定律预测。 虽然 Chinchilla 定律拟合得很好,但预测损失曲线落在实际损失曲线的波动范围内,但与实际损失曲线相比,其趋势显得更加平坦。 实际损失的下降速度比 Chinchilla 公式(即 BDβ)预测的要快,这表明当 D 很大时,我们的数据集具有多样化的高质量语料库可以进一步降低损失值。 为了解决 Chinchilla 预测和观察之间的这种差异,我们引入了以下方程,表示为 NEO 缩放定律,其中包括一个额外的正则化项 log(D),用于包含跨各种语料库的数万亿个标记的数据集:

L(N,D)=ANα+BDβ+Edlog(D) (8)

请注意,虽然正则化项 dlog(D) 理论上不会导致损失下限,因为 D 接近负无穷大,表明公式可能存在缺陷,但 d 的值通常我们实验中的范围在 1e-2 和 3e-2 之间。 因此,对于小于数百万亿 Token 的数据集大小,损失保持在合理范围内。

从下表8中,我们观察到NEO缩放定律方程在训练集和测试集上产生了明显更好的结果。

表8: 不同尺度法则的R2参数拟合和Huber损失比较。
Paramatic fit R2 Value (train) ↑ Huber Loss (train) ↓ R2 Value (test) ↑ Huber Loss (test) ↓
Chinchilla Law 0.2483 0.1665 0.4308 0.3372
OpenAI Law 0.2268 1.0424 -0.2916 0.6023
SMS Law 0.2484 0.1665 0.4306 0.3375
NEO Scaling Law 0.7361 0.2961 0.6720 0.2081

在NEO缩放定律的预测和1.5×1023 FLOPs的计算资源约束下,最优配置是用2.5T Token 训练10B参数模型,提供的预测损失值为0.6597。 为了确保与基线模型的可比性,我们选择将模型大小保持在 7.8B 参数,类似于 Llama-base 模型。 这种具有 7.8B 参数模型和 3.07T Token 的配置需要的计算资源略少,但会产生类似的预测损失值 (0.6618)。 同时,训练后,我们观察到该配置中的真实训练损失为0.6591,接近于预测损失值,证明了NEO缩放定律的有效性。

8.3 NEO缩放定律的推广

NEO 缩放定律可以适用于 MAP-Neo 之外的更广泛的模型。 具体来说,在图7中,我们展示了Chinchilla标度律(黄色虚线)和NEO标度律(红色实线)对DeepSeek大语言模型[28]的拟合结果使用7B和67B参数,并在包含中文、英文和代码的多个语料库的数据集上进行预训练。

我们观察到,对于最大的模型大小(即 MAP-Neo-7B 和 DeepSeek-67B),当数据集大小 (D) 较小时,Chinchilla Law 的预测往往会低估实际损失,并高估实际损失随着模型参数和训练数据的扩大而增加。 相比之下,与 MAP-Neo-7B 和 DeepSeek-67B 的 Chinchilla 定律结果相比,我们对 NEO 缩放定律的预测产生了更好的拟合结果。

Refer to caption
图7: DeepSeek大语言模型的Chinchilla Law预测和NEO Scaling law预测的损失曲线。 我们使用 7B 和 67B 的损失值进行拟合和预测。

我们进一步建议 NEO 缩放法则可能更适合具有多个高质量数据集源的大型多样化预训练数据集的情况。 关于NEO缩放定律在其他模型上的更多讨论,请参见附录A.8

9基础设施

我们先进的基础设施由两个主要组件组成:数据处理系统和训练系统。 训练系统旨在支持预训练和微调阶段,从而实现全面的模型开发。

我们的基础设施旨在处理英语和中文数据集的广泛数据处理任务。 我们利用强大的系统来确保跨不同语言的高效且可扩展的处理能力。 Spark[118]用于分布式计算,使用对象存储来保存数据。 每台机器配置64核CPU、256GB内存、1TB本地磁盘。 共有94台机器。 对于中文数据处理,共有14台机器。 其中,6台机器拥有96核CPU和180GB内存,而其他8台机器拥有48核CPU和190GB内存。 采用网络文件系统(NFS)[84]作为分布式文件存储系统。

在预训练阶段,利用Megatron-Core工具包训练大规模语言模型,参数高达数千亿。 与每秒 Token 数(TPS)指标相比,使用威震天核心在训练 7B 模型时达到了 7200 TPS 的速率,超过了在相同设置下观察到的不使用威震天核心的 6400 TPS 的性能。 这是使用模型和数据并行技术来完成的。 我们实施多种策略来有效管理我们的大型数据集和模型复杂性。 首先,我们引入程序通过自动检查、预测和标记来识别并暂时从资源池中删除由于软件或硬件错误而导致的污染计算节点。 其次,我们对 Megatron-LM 进行了修改,以专门防止在处理大型数据语料库时出现 A.3 中详述的溢出问题。 最后,我们实现了任务恢复机制,利用策略性选择的检查点迭代来防止训练期间潜在的失败。 这些增强功能确保了我们大规模训练操作中的最佳性能和可靠性。

为了确保计算资源的最佳利用,我们的基础设施设计结合了复杂的网络拓扑和硬件配置,促进复杂模型训练任务的有效工作负载分配和数据传输。 我们的基础设施利用分布式计算技术来优化模型的训练。 具体来说,我们的 7B 模型使用跨 64 个节点的 512 个 GPU 的 H800 配置进行训练,并采用 NCCL 进行后端分发,以 ibp 作为网络接口,使用 InfiniBand 硬件的 mlx5 来增强GPU 间通信。 张量模型并行性配置为利用 2 个 GPU,将单个 Transformer 模块的执行分布在这些单元之间以提高效率。 对于我们的 2B 模型,我们利用所有 256 个 GPU,并将张量模型并行度设置为 1,以确保有效的数据复制。 我们通过采用类似于 ZeRO-1 的技术来对优化器状态进行分片,进一步增强了可扩展性和效率。 这种方法可以管理更广泛的数据集和更复杂的模型训练,同时显着减少内存开销。

我们的集群由配备双 Intel Xeon CPU 和八个 NVIDIA H800 GPU 的机器组成。 该架构有利于高速数据传输,每个 CPU 插槽与两个连接到专用 PCIe 交换机的 PCIe Gen4 x16 通道连接。 这些交换机管理与本地 NVMe SSD、支持 RDMA 的网络接口卡 (NIC) 和两个 GPU 的连接。 CPU 间的通信由英特尔的 Ultra Path Interconnect (UPI) 促进,两个 CPU 都连接到支持 100 Gbps 的双端口 TCP NIC。 每台机器的网络配置包括四个 RDMA NIC,每个提供 200 Gbps 的全双工带宽和集成的 GPU Direct RDMA 功能。 值得注意的是,GPU 阵列通过四个 NVIDIA NVSwitch 互连,可实现带宽为 400 Gbps 的强大 GPU 内通信。 这种先进的配置强调了集群以卓越的效率和速度处理大规模模型训练的能力。

关于数据中心的机器间连接,我们实现了双层Clos网络架构,其中每个minipod可容纳至少512台H800服务器,通过高速RDMA网络互连。 在此架构中,每个 S0 交换机配备 64 个端口,每个端口支持 400 Gbps 的带宽。 这种安排确保了 1:1 的网络收敛比,这是维持最佳数据流和减少瓶颈的关键因素。 该结构内的连接经过精心组织,每两台 S0 交换机可服务 32 台服务器,每个 minipod 内总共有 32 台 S0 交换机联网。 此设置体现了一种先进的实施方式,旨在最大限度地提高数据中心环境中的吞吐量并最大限度地减少延迟。

表 9: 各种基础模型在不同基准上的性能比较。 最好的结果是blue,第二好的结果是underline,第三好的结果是fbox
Dataset LLama3-8B Mistral-7B LLama2-7B Amber-7B OLMo-7B OLMo-1.7-7B Pythia-6.9B Pythia-12B MAP-Neo-7B
Standard Benchmarks
BoolQ 66.82 64.1 70.67 63.52 68.41 70.49 62.45 61.07 81.07
PIQA 81.12 81.18 78.18 76.82 79 80.25 75.52 76.17 76.55
SIQA 47.34 47.13 45.50 42.89 44.11 54.71 42.32 44.32 68.22
HellaSwag 74.52 76.49 71.27 66.76 70.32 72.37 59.6 63.04 70.74
WinoGrande 72.38 75.3 69.53 64.64 66.54 69.22 60.85 63.69 59.83
ARC-c 79.66 71.53 35.93 24.41 24.07 49.83 22.71 25.08 68.14
OpenBookQA-Fact 69.0 81.0 42.60 26.6 24.6 64.4 25 28.6 82.0
CommonsensQA 69.7 67.57 66.50 57 60.44 69.04 55.45 54.79 69.94
MMLU-AVG 66.52 64.04 46.80 28.07 28.51 53.52 26.39 27.06 58.14
*-humanities 70.41 68.04 51.47 30.17 25.52 55.03 26.87 27.39 60.7
*-stem 56.22 53.21 38.02 27.66 28.68 44.17 26.77 28.13 49.84
*-social-science 76.0 73.65 52.20 27.18 30.05 62.19 24.32 26.26 66.78
*-other 68.94 67.0 49.99 27.37 29.86 57.67 27.25 25.91 59.73
Code Generation
Humaneval 33.5 28.0 13.4 13.4 11.6 17.1 9.1 8.5 23.8
Humaneval-Plus 29.3 23.2 11.6 12.2 9.8 15.2 8.5 7.3 20.1
MBPP 61.4 46.8 29.1 22.8 27 32.3 16.1 15.6 34.9
MBPP-Plus 51.6 38.9 22.8 18.5 21.2 25.7 13.2 11.1 29.9
World Knowledge
NQ 10.14 9.31 5.07 3.1 0.66 1.02 0.86 1.83 9.97
TriviaQA 51.94 56.47 52.44 26.65 31.97 45.16 16.97 24.31 42.36
Reading Comprehension
SQuAD2.0 40.88 12.53 41.32 31.15 27.05 30.43 22.54 23.11 30.98
Exams
MATH 20.76 15.74 6.14 3.88 1.6 4.86 3.82 4.54 20.7
GSM8K 54.74 47.46 16.22 3.64 5.84 28.43 3.41 3.94 53.68
Chinese
C-EVAL-AVG 49.83 47.54 32.37 23.82 27.39 35.21 24.64 24.82 57.68
*-stem 45.26 44.74 28.28 22.36 25.75 32.36 23.94 27.27 50.35
*-social-science 58.09 54.8 39.22 25.95 31.87 40.43 26.34 23.78 70.23
*-humanities 50.6 51.52 37.11 21.19 26.29 35.5 21.7 20.05 63.49
*-other 49.84 42.06 28.84 27.16 27.4 35.36 27.28 26.08 53.78
*-hard 32.41 33.97 25.21 19.63 27.12 29.16 22.99 27.05 41.07
CMMLU-AVG 50.72 44.63 31.85 25.77 25.53 36.74 25.34 24.88 55.1
*-humanities 53.1 44.59 32.50 24.86 26.65 37.04 25.81 25.41 62.24
*-stem 43.59 37.82 29.05 25.61 25.24 31.94 24.29 23.7 45.62
*-social-science 52.59 46.37 32.60 25.83 25.17 38.14 25.78 25.17 59.39
*-other 53.98 49.83 33.35 26.65 25.43 39.88 25.47 25.33 53.39
*-china-specific 44.81 40.84 29.27 24.96 24.97 34.91 26.5 25.34 55.84
表 10: 不同基准上各种对齐模型的性能比较。 最好的结果是blue,第二好的结果是underline,第三好的结果是fbox
Dataset LLama-3-8B Mistral-7B LLama-2-7B Amber-7B OLMo-7B MAP-Neo-7B MAP-Neo-7B
(Instruct) (Instruct-v0.2) (Chat) (Chat) (Instruct) (SFT) (Instruct)
Chat Benchmarks
AlignBench 6.17 5.27 4.33 2.85 3.2 4.63 5.04
AlpacaEval 22.9 17.1 5.4 1.21 3.64 9.77 16.65
Arena-Hard 20.6 12.6 4.6 1.2 1.7 10 11.5
CHC-Bench 5.53 6.86 4.7 3.13 3.91 6.14 7.42
MT-Bench 8.1 7.5 6.6 5.2 5.3 7.1 7.1
Standard Benchmarks
BoolQ 75.05 82.87 74.77 66.51 72.2 84.59 81.28
PIQA 80.09 82.43 76.01 77.48 75.3 76.06 75.24
SIQA 51.23 50.41 48.72 44.88 48.41 51.69 52.25
HellaSwag 71.39 80.11 71.32 67.84 75.18 68.5 68.7
WinoGrande 71.9 73.4 68.35 64.96 66.69 65.19 66.06
ARC-c 81.36 73.56 55.59 37.29 57.63 80 80
OpenBookQA-Fact 87 85.4 74.4 36.6 74 85.4 85.4
CommonsenseQA 73.55 75.84 70.11 60.28 63.47 68.39 70.35
MMLU-Pro 38.12 30.86 21.61 14.65 16.27 28.08 28.74
MMLU 67.1 60.81 48.22 38.8 47.47 58.28 58.28
*-humanities 70.67 66.58 52.71 39.19 48.33 60.4 60.85
*-stem 56.97 50.01 37.98 33.78 38 51.86 52.29
*-social-science 76.9 69.75 55.81 42.85 56.57 66.19 65.6
*-other 69.3 62.55 51.69 42.03 52.06 58.26 57.68
Code Generation
HumanEval 48.8 42.1 14 17.7 14.63 34.1 45.1
HumanEval-Plus 44.5 36.0 12.2 14 12.8 31.7 37.8
MBPP 70.1 39.7 29.1 28.0 20.1 44.4 44.4
MBPP-Plus 59.3 33.3 22.8 23.5 16.7 38.1 36
World Knowledge
NQ 8.25 1.14 1.5 3.02 0.53 3.8 2.41
Triviaqa 56.32 45.06 46.79 30.95 27.91 38.77 27.09
Reading Comprehension
SQuAD2.0 66.99 15.01 19.61 13.12 42.13 44.58 25.2
Exams
MATH 29.28 13.14 6.9 4.2 1.8 35.36 35.58
GSM8K 79.23 49.2 26 7.59 13.5 72.02 73.16
Chinese
C-Eval 50.76 43.72 35.67 26.29 35.18 55.42 56.97
*-stem 47.47 41.35 32.59 23.99 31.43 47.37 49.08
*-social-science 57.05 47.75 40.04 26.77 42.13 69.21 70.75
*-humanities 48.32 47.33 36.96 28.26 34.03 63.17 63.14
*-other 53.48 40.74 36.01 28.06 36.81 49.78 52.63
*-hard 31.04 27.32 28.45 22.77 26.33 38.41 39.55
CMMLU 51.68 42.67 33.9 30.09 35.55 55.27 55.01
*-humanities 52.55 42.01 35.45 30.48 34.78 63.4 62.99
*-stem 44.09 36.82 29.33 26.76 30.36 47.29 46.69
*-social-science 53.02 44.41 34.55 30.97 38.04 57.55 57.79
*-other 57.58 47.3 36.77 32.25 38.45 53.93 53.44
*-china-specific 45.86 39.22 32.64 28.38 33.97 55.69 55.9

10 评估

全面的评估表明,MAP-Neo 模型系列在基础模型和聊天模型的自动基准测试中都取得了令人鼓舞的性能。 与之前的透明大语言模型系列相比,我们强调了MAP-Neo在代码、数学和指令跟随能力方面的独特表现,这不仅赋予了MAP-Neo学术和实用价值。

10.1 基本模型性能

10.1.1 主要结果

我们将我们的基础模型的结果与几个著名的大语言模型进行比较,例如LLama3-8B 和 Mistral-7B,跨越标准学术基准。 我们所有的评估指标均源自我们的评估,确保一致性和透明度。 我们不对评估内容进行任何后处理,保持原始输出的完整性。

我们的评估涵盖一套全面的中英文公共基准,利用专为严格评估而设计的内部评估框架。 这些基准包括各种数据集,适合语言理解和推理的多个学科和方面。 我们的评估策略涵盖各种指标,包括语言建模、专业知识和代码生成。 对于需要多项选择的数据集,我们采用基于困惑度的评估。 对于基于生成的数据集,我们生成自由文本并相应地解析结果。 我们与其他基础模型比较的详细结果如表9所示。

标准基准我们包括布尔问题(BoolQ)[21]、物理交互QA(PIQA)[10]、社交交互QA(SIQA) [85]、HellaSwag [119]、WinoGrande [83]、ARC-Challenge(ARC-c) [22]、OpenBookQA-Fact [70]、CommonsenseQA [98] 和 MMLU [40] 用于评估一般推理能力。 所有这些基准测试均使用 0-shot 配置进行测试,但 MMLU 除外,它是使用 5-shot 设置进行评估的。

代码生成 我们报告了 HumanEval [15]、HumanEval-Plus、MBPP [5] 上评估模型的 pass@1 分数,以及MBPP-Plus,全部采用 0-shot 配置,遵循 EvalPlus 框架[63]

世界知识 我们使用 NaturalQuestions(NQ) [57] 和 TriviaQA [49] 来评估世界知识。 两个基准测试均采用 0 次配置进行测试。

阅读理解我们报告了 SQuAD2.0 [79] 上的 0 次测试平均值。

考试 我们报告 MATH [41] 和 GSM8K [23] 的平均分数,两者均采用 4 次配置。 对于 GSM8K,我们采用了一个简单的思维链提示策略:“让我们一步一步思考。”对于这两个数据集,我们使用 MAmmoTH 评估框架[116]

中文 我们使用 CMMLU [60] 和 CEval [46] 来评估中文任务的表现。 两个基准测试均采用 5 次配置进行测试。

10.1.2讨论

数据质量

与之前的透明大语言模型(例如Amber [66] 和 Pythia [9],采用(大概)较低质量的数据。

我们的MAP-Neo和其他透明大语言模型的差距

在表9中,我们注意到透明大语言模型的性能仍然明显落后于具有相似规模的前沿工业开放重量大语言模型(例如LLama3-8B,Mistral-7B)。 相比之下,我们的MAP-Neo在数学、代码、语文知识的部分自动基准测试上可以追平甚至超越他们。 我们呼吁更多地参与透明大语言模型的开发,进一步推进大语言模型的民主化。

10.2模型性能一致

10.2.1 主要结果

为了准确评估我们的对齐模型的实际对话性能,我们选择了几个衡量模型功能各个方面的基准。 选择这些基准是因为它们能够全面评估关键能力,例如一致性、遵循指令、现实世界的表现以及与人类偏好的一致性。 以下是我们使用的具体基准及其评估的独特功能:

AlignBench [65] AlignBench评估中文大语言模型的比对能力,通过全面、多维度的基准测试和人机交互,确保高可靠性和可解释性数据整理。

AlpacaEval [62, 32, 31] AlpacaEval 通过基于 LLM 的自动评估高效可靠地测量指令跟踪模型的性能,并根据广泛的人工注释进行验证。

Arena-Hard [61] Arena-Hard 通过根据实时数据构建基准并确保稳健的模型能力分离来评估大语言模型的真实性能和反映人类偏好的能力。

CHC-Bench [30] CHC-Bench 评估大语言模型对中国文化、历史和语言的熟练程度,任务包括作诗、理解古汉语、解释中文术语,强调主要在英文数据集上训练的模型面临的挑战。

MT-Bench [124] MT-Bench以强大的大语言模型为评判,评估LLM聊天助理与人类偏好的契合度,与人类评价高度一致。

MMLU-Pro [106] 对于对齐模型,我们进一步评估具有 5 次配置的 MMLU-Pro [106],以反映模型的能力更加全面。

10.2.2讨论

迭代 DPO 的有效性

在表10中,与 Neo-7B-SFT 相比,Neo-7B-Instruct 在聊天相关基准数据集(例如 AlignBench、AlpacaEval、Arena-Hard 和 CHC-Bench)上显示出显着改进),这进一步证明了我们迭代DPO的有效性。

聊天模型的性能

10 显示 Amber-7B-Chat 和 OLMo-7B-Instruct 在聊天基准上表现不佳。 我们假设基本模型的有限功能可能会严重限制相应指令调整模型在聊天基准上的性能。

11社会影响

当公司决定利用算法产品时,数据殖民主义是一个深切关注的问题。 [27]概念化了数据殖民主义框架,认为科技巨头,尤其是美国的科技巨头,利用其海量的数据力量操纵人类的行为和判断,不断追踪人们的踪迹,形成新的社会秩序。 这表明控制和拥有数据有利于企业的市场地位并产生丰厚的回报。 因此,将大语言模型作为企业专有模型是业界的普遍做法。 [2]讨论人工智能民主化的障碍,例如人工智能能力集中在大型科技公司和精英大学。 他们强调了人工智能资源获取民主化的重要性,以减轻数据殖民主义的风险,并促进所有机构公平获取人工智能技术。 [91]讨论专有大语言模型的主导地位以及对高性能开源替代方案的需求。 他们提出了增强开源模型以与专有模型竞争的方法,同时解决隐私和资源受限问题。 他们还指出开源模型在大语言模型社区中的重要性,并承认资源较少和敏感信息较少的公司对于信任专有模型犹豫不决。 然而,大多数大语言模型都是海量英语语料库的产物,并且是从英语开始训练的[122] 开源模式如何使非英语语言社区及其数据民主化受益尚不清楚。

此外,大多数开源模型并不完全透明。 开源大型语言模型(大语言模型)通常声称是透明且可访问的,但其开发的许多关键方面,例如数据清理过程和预训练代码,仍未公开。 缺乏透明度会影响可重复性以及充分理解和信任这些模型的能力[110] 对于财务拮据和隐私问题的公司来说,训练大语言模型并不经济。 尽管大多数开源模型开放最终和一些中间检查点的访问,但它们使数据源、数据预训练代码和数据处理方法不透明,而这些是建立大语言模型成本最高的部分。 这是我们想要解决的关键问题,然后希望促进我们社区的完全透明度。

在我们的报告中,MAP-Neo 模型可能会补充目前大语言模型中中文语料库的匮乏。 重要的是,我们的双语语言模型是一个“彻底”的开源模型——公开了从搜索原始数据来源、数据清理到预训练代码库的所有关键流程。 这些披露显着降低了部署和定制大语言模型的成本,尤其是中文大语言模型。 它可能会产生潜在的社会影响。 需要中文版大语言模型但面临限制的公司可以通过使用或参考我们的 MAP-Neo 模型,更好地利用大语言模型的优势。 总体上可以提高社会福利,使汉语大语言模型社区更加生动和多元化[24] 我们提倡彻底开源的行动可能会吸引更多中国大语言模型研究人员或相关公司充分公开他们的模型,因为彻底透明的开源模型可以从更具建设性的反馈和批评中为他们带来可观的利益。 这些可能会使他们的模型变得更好,并最终加速中文大语言模型的迭代并为当地社区赋能[81] 总体而言,像公开MAP-Neo模型这样的开放创新实践可能会缓解英语大语言模型的主导地位,并提高国际大语言模型社区的包容性。

这些开放式创新实践也可能有利于中小企业(SME)有效地引入新产品[96],并通过更轻松地实施自己的定制大语言模型来高效地引入新产品,这可能会部分缓解数据威胁来自大型科​​技巨头的殖民主义。 我们的Map-Neo模型的开放性和经济性给学术界的研究人员带来了乐观的前景。 这些属性表明,在不依赖特定大型科技巨头帮助的情况下,建立大学自己的人工智能并不困难且成本高昂。 如果大学能够对其数据和人工智能流程进行独立、去中心化的控制,将防止大公司垄断人工智能,促进数据和人工智能民主化。

12结论

在本文中,我们介绍了 MAP-Neo,它通过提供完全开源的双语大语言模型套件,在提高大语言模型(大语言模型)的透明度和可访问性方面取得了长足的进步。 通过共享从数据管理、预训练语料库(矩阵数据堆)、模型训练到评估的详细流程,我们的目标是支持学术和开源社区推进透明的 NLP研究。 此外,MAP-Neo 通过增强的推理、指令跟踪和编码能力缩小了与行业级模型(通常是闭源模型)的差距。 我们希望我们的工作为研究人员和开发人员提供宝贵的资源,为实现先进大语言模型技术的民主化做出更广泛的努力。

13贡献和致谢

团队领导者:
  • 张戈,M-A-P,滑铁卢大学,01.AI,数据、预训练、评估、模型架构、代码库和对齐

  • Scott Qu,M-A-P,曼彻斯特大学,01.AI,代码库、模型架构、基础设施和预训练

  • Jiaheng Liu,M-A-P,缩放法则与对齐

核心贡献者:(按字母顺序排列)
  • 张晨辰,独立研究员,预训练

  • 林成华. M-A-P,曼彻斯特大学,数据

  • Chou Leuang Yu,香港中文大学(深圳),对齐与数据

  • Danny Pan,北京大学,数据与代码库

  • Esther Cheng,北京大学,数据

  • 刘杰,香港中文大学,对齐

  • 林群书,2077AI,数据

  • Raven Yuan,M-A-P,预训练和基础设施

  • Tuney Cheng,M-A-P,01.AI,滑铁卢大学,预训练、评估与对齐

  • 庞伟,滑铁卢大学,数据

  • Xinrun Du,M-A-P,01.AI,代码库、预训练、对齐和评估

  • 梁一鸣,中国科学院自动化研究所,对准与评估

  • 马英豪,硕士,伦敦玛丽女王大学,缩放定律

  • 李一智,硕士,曼彻斯特大学,数据

  • 马子阳,硕士,上海交通大学,对齐

贡献者:(按字母顺序排列)
  • Bill Lin,南加州大学,对齐

  • Emmanouil Benetos,伦敦玛丽女王大学,缩放定律

  • Huan Yang,华威大学,道德与社会影响

  • 周俊廷,北京大学,数据与尺度法

  • 马凯景,同济大学,数据

  • 刘明浩,2077AI,数据

  • Morry Niu,01.AI,代码库

  • Noah Wang,01.AI,对齐

  • Quehry Que,独立研究员,数据

  • Ruibo Liu,达特茅斯大学,预训练和模型架构

  • Sine Liu,独立研究员,Infra

  • 郭肖恩,01.AI,数据

  • Soren Gau,复旦大学, Token 化

  • Wangchunshu Zhou,M-A-P 和 AIWaves Inc.,数据

  • 张馨月,Unity,道德与数据

  • 周一智,南京大学,数据

  • Yubo Wang,滑铁卢大学,预训练

  • 白月琳,硕士,中国科学院深圳先进技术研究院,数据

  • 张雨涵,M-A-P,数据

  • 张宇翔,M-A-P,早稻田大学,代码库、评估与数据

  • Zenith Wang,独立研究员,数据

  • 杨珍珠,中国地质大学北京,伦理与数据

  • 赵子健,2077AI,数据

顾问:
  • 张家军,中国科学院自动化研究所武汉人工智能研究所

  • 万里欧阳,香港中文大学上海人工智能实验室

  • 黄文浩,01.AI

  • 陈文虎,滑铁卢大学

14多模式艺术投影

多模式艺术投影 (M-A-P) 是一个开源研究社区。 社区成员正在研究人工智能生成内容 (AIGC) 主题,包括文本、音频和视觉模式。 我们的目标是促进大语言/音乐/多模态模型(大语言模型/LMM)训练、数据收集和有趣应用程序开发的开放研究。

参考

  • Achiam et al. [2023] Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. Gpt-4 technical report. arXiv preprint arXiv:2303.08774, 2023.
  • Ahmed & Wahed [2020] Nur Ahmed and Muntasir Wahed. The de-democratization of ai: Deep learning and the compute divide in artificial intelligence research. arXiv preprint arXiv:2010.15581, 2020.
  • AI@Meta [2024] AI@Meta. Llama 3 model card. 2024. URL https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md.
  • Anthropic [2024] AI Anthropic. The claude 3 model family: Opus, sonnet, haiku. Claude-3 Model Card, 2024.
  • Austin et al. [2021] Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • [6] Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, MarcoDos Santos, Stephen Mcaleer, AlbertQ Jiang, Jia Deng, Stella Biderman, and Sean Welleck. Llemma: An open language model for mathematics.
  • Bai et al. [2023] Jinze Bai, Shuai Bai, Yunfei Chu, Zeyu Cui, Kai Dang, Xiaodong Deng, Yang Fan, Wenbin Ge, Yu Han, Fei Huang, et al. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023.
  • Ben Allal et al. [2024] Loubna Ben Allal, Anton Lozhkov, Guilherme Penedo, Thomas Wolf, and Leandro von Werra. Cosmopedia, 2024. URL https://huggingface.co/datasets/HuggingFaceTB/cosmopedia.
  • Biderman et al. [2023] Stella Biderman, Hailey Schoelkopf, Quentin Gregory Anthony, Herbie Bradley, Kyle O’Brien, Eric Hallahan, Mohammad Aflah Khan, Shivanshu Purohit, USVSN Sai Prashanth, Edward Raff, et al. Pythia: A suite for analyzing large language models across training and scaling. In International Conference on Machine Learning, pp. 2397–2430. PMLR, 2023.
  • Bisk et al. [2020] Yonatan Bisk, Rowan Zellers, Jianfeng Gao, Yejin Choi, et al. Piqa: Reasoning about physical commonsense in natural language. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pp. 7432–7439, 2020.
  • Blecher et al. [2023] Lukas Blecher, Guillem Cucurull, Thomas Scialom, and Robert Stojnic. Nougat: Neural optical understanding for academic documents, 2023.
  • Bradley & Terry [1952] Ralph Allan Bradley and Milton E. Terry. Rank analysis of incomplete block designs: I. the method of paired comparisons. Biometrika, 39(3/4):324–345, 1952. ISSN 00063444. URL http://www.jstor.org/stable/2334029.
  • Broder [1997] Andrei Z Broder. On the resemblance and containment of documents. In Proceedings. Compression and Complexity of SEQUENCES 1997 (Cat. No. 97TB100171), pp. 21–29. IEEE, 1997.
  • Chen et al. [2023a] Jianghao Chen, Pu Jian, Tengxiao Xi, Dongyi Yi, Qianlong Du, Chenglin Ding, Guibo Zhu, Chengqing Zong, Jinqiao Wang, and Jiajun Zhang. Chinesewebtext: Large-scale high-quality chinese web text extracted with effective evaluation model, 2023a.
  • Chen et al. [2021] Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021.
  • Chen et al. [2023b] Wenhu Chen, Ming Yin, Max Ku, Pan Lu, Yixin Wan, Xueguang Ma, Jianyu Xu, Xinyi Wang, and Tony Xia. Theoremqa: A theorem-driven question answering dataset. In The 2023 Conference on Empirical Methods in Natural Language Processing, 2023b.
  • Chen et al. [2024] Zehui Chen, Kuikun Liu, Qiuchen Wang, Jiangning Liu, Wenwei Zhang, Dahua Lin, Kai Chen, and Feng Zhao. Agent-flan: Designing data and methods of effective agent tuning for large language models. arXiv preprint arXiv:2403.12881, 2024.
  • Chevalier et al. [2024] Alexis Chevalier, Jiayi Geng, Alexander Wettig, Howard Chen, Sebastian Mizera, Toni Annala, Max Jameson Aragon, Arturo Rodríguez Fanlo, Simon Frieder, Simon Machado, Akshara Prabhakar, Ellie Thieu, Jiachen T. Wang, Zirui Wang, Xindi Wu, Mengzhou Xia, Wenhan Jia, Jiatong Yu, Jun-Jie Zhu, Zhiyong Jason Ren, Sanjeev Arora, and Danqi Chen. Language models as science tutors. arXiv preprint arXiv: 2402.11111, 2024.
  • Christiano et al. [2017] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30, 2017.
  • Chung et al. [2024] Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Yunxuan Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. Journal of Machine Learning Research, 25(70):1–53, 2024.
  • Clark et al. [2019] Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044, 2019.
  • Clark et al. [2018] Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
  • Cobbe et al. [2021] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Colombo et al. [2014] Massimo G Colombo, Evila Piva, and Cristina Rossi-Lamastra. Open innovation and within-industry diversification in small and medium enterprises: The case of open source software firms. Research policy, 43(5):891–902, 2014.
  • Computer [2023] Together Computer. Redpajama: an open dataset for training large language models, 2023. URL https://github.com/togethercomputer/RedPajama-Data.
  • Contributors [2023] OpenCompass Contributors. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass, 2023.
  • Couldry & Mejias [2019] Nick Couldry and Ulises A Mejias. Data colonialism: Rethinking big data’s relation to the contemporary subject. Television & New Media, 20(4):336–349, 2019.
  • DeepSeek-AI [2024] DeepSeek-AI. Deepseek llm: Scaling open-source language models with longtermism. arXiv preprint arXiv:2401.02954, 2024. URL https://github.com/deepseek-ai/DeepSeek-LLM.
  • Deng et al. [2024] Qixin Deng, Qikai Yang, Ruibin Yuan, Yipeng Huang, Yi Wang, Xubo Liu, Zeyue Tian, Jiahao Pan, Ge Zhang, Hanfeng Lin, et al. Composerx: Multi-agent symbolic music composition with llms. arXiv preprint arXiv:2404.18081, 2024.
  • Du et al. [2024] Xinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, and Ge Zhang. Chinese tiny llm: Pretraining a chinese-centric large language model, 2024.
  • Dubois et al. [2023] Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Alpacafarm: A simulation framework for methods that learn from human feedback, 2023.
  • Dubois et al. [2024] Yann Dubois, Balázs Galambosi, Percy Liang, and Tatsunori B Hashimoto. Length-controlled alpacaeval: A simple way to debias automatic evaluators. arXiv preprint arXiv:2404.04475, 2024.
  • Gabriel et al. [2018] Rodney A Gabriel, Tsung-Ting Kuo, Julian McAuley, and Chun-Nan Hsu. Identifying and characterizing highly similar notes in big clinical note datasets. Journal of biomedical informatics, 82:63–69, 2018.
  • Geng & Liu [2023] Xinyang Geng and Hao Liu. Openllama: An open reproduction of llama, May 2023. URL https://github.com/openlm-research/open_llama.
  • Gionis et al. [1999] Aristides Gionis, Piotr Indyk, Rajeev Motwani, et al. Similarity search in high dimensions via hashing. In Vldb, volume 99, pp. 518–529, 1999.
  • Groeneveld et al. [2024] Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, et al. Olmo: Accelerating the science of language models. arXiv preprint arXiv:2402.00838, 2024.
  • Gyawali et al. [2020] Bikash Gyawali, Lucas Anastasiou, and Petr Knoth. Deduplication of scholarly documents using locality sensitive hashing and word embeddings. 2020.
  • He et al. [2023] Conghui He, Zhenjiang Jin, Chao Xu, Jiantao Qiu, Bin Wang, Wei Li, Hang Yan, Jiaqi Wang, and Dahua Lin. Wanjuan: A comprehensive multimodal dataset for advancing english and chinese large models, 2023.
  • Henderson* et al. [2022] Peter Henderson*, Mark S. Krass*, Lucia Zheng, Neel Guha, Christopher D. Manning, Dan Jurafsky, and Daniel E. Ho. Pile of law: Learning responsible data filtering from the law and a 256gb open-source legal dataset, 2022. URL https://arxiv.org/abs/2207.00220.
  • Hendrycks et al. [2020] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
  • Hendrycks et al. [2021] Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021.
  • Hernandez et al. [2022] Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, et al. Scaling laws and interpretability of learning from repeated data. arXiv preprint arXiv:2205.10487, 2022.
  • Hoffmann et al. [2022] Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
  • Hu et al. [2024] Shengding Hu, Yuge Tu, Xu Han, Chaoqun He, Ganqu Cui, Xiang Long, Zhi Zheng, Yewei Fang, Yuxiang Huang, Weilin Zhao, et al. Minicpm: Unveiling the potential of small language models with scalable training strategies. arXiv preprint arXiv:2404.06395, 2024.
  • Huang et al. [2022] Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, and Furu Wei. Layoutlmv3: Pre-training for document ai with unified text and image masking. In Proceedings of the 30th ACM International Conference on Multimedia, pp. 4083–4091, 2022.
  • Huang et al. [2024] Yuzhen Huang, Yuzhuo Bai, Zhihao Zhu, Junlei Zhang, Jinghan Zhang, Tangjun Su, Junteng Liu, Chuancheng Lv, Yikai Zhang, Yao Fu, et al. C-eval: A multi-level multi-discipline chinese evaluation suite for foundation models. Advances in Neural Information Processing Systems, 36, 2024.
  • Jaccard [1912] Paul Jaccard. The distribution of the flora in the alpine zone. 1. New phytologist, 11(2):37–50, 1912.
  • Jiang et al. [2023] Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. Mistral 7b. arXiv preprint arXiv:2310.06825, 2023.
  • Joshi et al. [2017] Mandar Joshi, Eunsol Choi, Daniel S Weld, and Luke Zettlemoyer. Triviaqa: A large scale distantly supervised challenge dataset for reading comprehension. arXiv preprint arXiv:1705.03551, 2017.
  • Joulin et al. [2016] Armand Joulin, Edouard Grave, Piotr Bojanowski, Matthijs Douze, Hervé Jégou, and Tomas Mikolov. Fasttext.zip: Compressing text classification models. arXiv: Computation and Language,arXiv: Computation and Language, Nov 2016.
  • Kaddour [2023] Jean Kaddour. The minipile challenge for data-efficient language models. arXiv preprint arXiv:2304.08442, 2023.
  • Kaplan et al. [2020] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.
  • Kiveris et al. [2014] Raimondas Kiveris, Silvio Lattanzi, Vahab Mirrokni, Vibhor Rastogi, and Sergei Vassilvitskii. Connected components in mapreduce and beyond. In Proceedings of the ACM Symposium on Cloud Computing, pp. 1–13, 2014.
  • Kocetkov et al. [2022] Denis Kocetkov, Raymond Li, Loubna Ben Allal, Jia Li, Chenghao Mou, Carlos Muñoz Ferrandis, Yacine Jernite, Margaret Mitchell, Sean Hughes, Thomas Wolf, Dzmitry Bahdanau, Leandro von Werra, and Harm de Vries. The stack: 3 tb of permissively licensed source code. Preprint, 2022.
  • Kowsari et al. [2017] Kamran Kowsari, Donald E Brown, Mojtaba Heidarysafa, Kiana Jafari Meimandi, , Matthew S Gerber, and Laura E Barnes. Hdltex: Hierarchical deep learning for text classification. In Machine Learning and Applications (ICMLA), 2017 16th IEEE International Conference on. IEEE, 2017.
  • Kudo & Richardson [2018] Taku Kudo and John Richardson. Sentencepiece: A simple and language independent subword tokenizer and detokenizer for neural text processing. arXiv preprint arXiv:1808.06226, 2018.
  • Kwiatkowski et al. [2019] Tom Kwiatkowski, Jennimaria Palomaki, Olivia Redfield, Michael Collins, Ankur Parikh, Chris Alberti, Danielle Epstein, Illia Polosukhin, Jacob Devlin, Kenton Lee, et al. Natural questions: a benchmark for question answering research. Transactions of the Association for Computational Linguistics, 7:453–466, 2019.
  • Lee et al. [2021] Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. arXiv preprint arXiv:2107.06499, 2021.
  • Li et al. [2022] Chenxia Li, Ruoyu Guo, Jun Zhou, Mengtao An, Yuning Du, Lingfeng Zhu, Yi Liu, Xiaoguang Hu, and Dianhai Yu. Pp-structurev2: A stronger document analysis system. arXiv preprint arXiv:2210.05391, 2022.
  • Li et al. [2023a] Haonan Li, Yixuan Zhang, Fajri Koto, Yifei Yang, Hai Zhao, Yeyun Gong, Nan Duan, and Timothy Baldwin. Cmmlu: Measuring massive multitask language understanding in chinese. arXiv preprint arXiv:2306.09212, 2023a.
  • Li* et al. [2024] Tianle Li*, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Banghua Zhu, Joseph E. Gonzalez, and Ion Stoica. From live data to high-quality benchmarks: The arena-hard pipeline, April 2024. URL https://lmsys.org/blog/2024-04-19-arena-hard/.
  • Li et al. [2023b] Xuechen Li, Tianyi Zhang, Yann Dubois, Rohan Taori, Ishaan Gulrajani, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Alpacaeval: An automatic evaluator of instruction-following models. https://github.com/tatsu-lab/alpaca_eval, 2023b.
  • Liu et al. [2023a] Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, and Lingming Zhang. Is your code generated by chatGPT really correct? rigorous evaluation of large language models for code generation. In Thirty-seventh Conference on Neural Information Processing Systems, 2023a. URL https://openreview.net/forum?id=1qvx610Cu7.
  • Liu et al. [2024] Jie Liu, Zhanhui Zhou, Chao Yang, Han-Sen Zhong, and Wanli Ouyang. Storm-7b, April 2024. URL https://huggingface.co/jieliu/Storm-7B.
  • Liu et al. [2023b] Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, and Jie Tang. Alignbench: Benchmarking chinese alignment of large language models, 2023b.
  • Liu et al. [2023c] Zhengzhong Liu, Aurick Qiao, Willie Neiswanger, Hongyi Wang, Bowen Tan, Tianhua Tao, Junbo Li, Yuqi Wang, Suqi Sun, Omkar Pangarkar, Richard Fan, Yi Gu, Victor Miller, Yonghao Zhuang, Guowei He, Haonan Li, Fajri Koto, Liping Tang, Nikhil Ranjan, Zhiqiang Shen, Xuguang Ren, Roberto Iriondo, Cun Mu, Zhiting Hu, Mark Schulze, Preslav Nakov, Tim Baldwin, and Eric P. Xing. Llm360: Towards fully transparent open-source llms, 2023c.
  • Longpre et al. [2023] Shayne Longpre, Le Hou, Tu Vu, Albert Webson, Hyung Won Chung, Yi Tay, Denny Zhou, Quoc V Le, Barret Zoph, Jason Wei, et al. The flan collection: Designing data and methods for effective instruction tuning. arXiv preprint arXiv:2301.13688, 2023.
  • Lozhkov et al. [2024] Anton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, and Harm de Vries. Starcoder 2 and the stack v2: The next generation, 2024.
  • Luo et al. [2023] Yin Luo, Qingchao Kong, Nan Xu, Jia Cao, Bao Hao, Baoyu Qu, Bo Chen, Chao Zhu, Chenyang Zhao, Donglei Zhang, et al. Yayi 2: Multilingual open-source large language models. arXiv preprint arXiv:2312.14862, 2023.
  • Mihaylov et al. [2018] Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. arXiv preprint arXiv:1809.02789, 2018.
  • Nam Pham [2024] Nam Pham. tiny-strange-textbooks (revision 6f304f1), 2024. URL https://huggingface.co/datasets/nampdn-ai/tiny-strange-textbooks.
  • Nguyen et al. [2023] Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A Rossi, and Thien Huu Nguyen. Culturax: A cleaned, enormous, and multilingual dataset for large language models in 167 languages. arXiv preprint arXiv:2309.09400, 2023.
  • Paster et al. [2023] Keiran Paster, Marco Dos Santos, Zhangir Azerbayev, and Jimmy Ba. Openwebmath: An open dataset of high-quality mathematical web text, 2023.
  • Penedo et al. [2023] Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, and Julien Launay. The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116, 2023. URL https://arxiv.org/abs/2306.01116.
  • Qu et al. [2024] Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, et al. Mupt: A generative symbolic music pretrained transformer. arXiv preprint arXiv:2404.06393, 2024.
  • Rae et al. [2022] Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Scaling language models: Methods, analysis & insights from training gopher, 2022.
  • Rafailov et al. [2023] Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, and Chelsea Finn. Direct preference optimization: Your language model is secretly a reward model, 2023.
  • Raffel et al. [2019] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv e-prints, art. arXiv:1910.10683, October 2019. doi: 10.48550/arXiv.1910.10683.
  • Rajpurkar et al. [2018] Pranav Rajpurkar, Robin Jia, and Percy Liang. Know what you don’t know: Unanswerable questions for squad. arXiv preprint arXiv:1806.03822, 2018.
  • Reid et al. [2024] Machel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, et al. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv preprint arXiv:2403.05530, 2024.
  • Ricaurte [2019] Paola Ricaurte. Data epistemologies, the coloniality of power, and resistance. Television & New Media, 20(4):350–365, 2019.
  • Ronsor [2023] Ronsor. Bigknow2022: Bringing language models up to speed. https://github.com/RyokoAI/BigKnow2022, 2023.
  • Sakaguchi et al. [2021] Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. Winogrande: An adversarial winograd schema challenge at scale. Communications of the ACM, 64(9):99–106, 2021.
  • Sandberg et al. [1985] Russel Sandberg, David Goldberg, Steve Kleiman, Dan Walsh, and Bob Lyon. Design and implementation of the sun network filesystem. In Proceedings of the summer 1985 USENIX conference, pp. 119–130, 1985.
  • Sap et al. [2019] Maarten Sap, Hannah Rashkin, Derek Chen, Ronan LeBras, and Yejin Choi. Socialiqa: Commonsense reasoning about social interactions. arXiv preprint arXiv:1904.09728, 2019.
  • Scao et al. [2023] Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilić, Daniel Hesslow, Roman Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson, Pawan Sasanka Ammanamanchi, Thomas Wang, Benoît Sagot, Niklas Muennighoff, Albert Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina Mcmillan-Major, Iz Beltagy, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh, Hugo Laurençon, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin Leong, Daniel van Strien, David Ifeoluwa Adelani, Dragomir Radev, Eduardo González Ponferrada, Efrat Levkovizh, Ethan Kim, Eyal Bar Natan, Francesco de Toni, Gérard Dupont, Germán Kruszewski, Giada Pistilli, Hady Elsahar, Hamza Benyamina, Hieu Tran, Ian Yu, Idris Abdulmumin, Isaac Johnson, Itziar Gonzalez-Dios, Javier de la Rosa, Jenny Chim, Jesse Dodge, Jian Zhu, Jonathan Chang, Jörg Frohberg, Joseph Tobing, Joydeep Bhattacharjee, Khalid Almubarak, Kimbo Chen, Kyle Lo, Leandro von Werra, Leon Weber, Long Phan, Loubna Ben Allal, Ludovic Tanguy, Manan Dey, Manuel Romero Muñoz, Maraim Masoud, María Grandury, Mario Šaško, Max Huang, Maximin Coavoux, Mayank Singh, Mike Tian-Jian Jiang, Minh Chien Vu, Mohammad A. Jauhar, Mustafa Ghaleb, Nishant Subramani, Nora Kassner, Nurulaqilla Khamis, Olivier Nguyen, Omar Espejel, Ona de Gibert, Paulo Villegas, Peter Henderson, Pierre Colombo, Priscilla Amuok, Quentin Lhoest, Rheza Harliman, Rishi Bommasani, Roberto Luis López, Rui Ribeiro, Salomey Osei, Sampo Pyysalo, Sebastian Nagel, Shamik Bose, Shamsuddeen Hassan Muhammad, Shanya Sharma, Shayne Longpre, Somaieh Nikpoor, Stanislav Silberberg, Suhas Pai, Sydney Zink, Tiago Timponi Torrent, Timo Schick, Tristan Thrush, Valentin Danchev, Vassilina Nikoulina, Veronika Laippala, Violette Lepercq, Vrinda Prabhu, Zaid Alyafeai, Zeerak Talat, Arun Raja, Benjamin Heinzerling, Chenglei Si, Elizabeth Salesky, Sabrina J. Mielke, Wilson Y. Lee, Abheesht Sharma, Andrea Santilli, Antoine Chaffin, Arnaud Stiegler, Debajyoti Datta, Eliza Szczechla, Gunjan Chhablani, Han Wang, Harshit Pandey, Hendrik Strobelt, Jason Alan Fries, Jos Rozen, Leo Gao, Lintang Sutawika, M Saiful Bari, Maged S. Al-Shaibani, Matteo Manica, Nihal Nayak, Ryan Teehan, Samuel Albanie, Sheng Shen, Srulik Ben-David, Stephen H. Bach, Taewoon Kim, Tali Bers, Thibault Fevry, Trishala Neeraj, Urmish Thakker, Vikas Raunak, Xiangru Tang, Zheng-Xin Yong, Zhiqing Sun, Shaked Brody, Yallow Uri, Hadar Tojarieh, Adam Roberts, Hyung Won Chung, Jaesung Tae, Jason Phang, Ofir Press, Conglong Li, Deepak Narayanan, Hatim Bourfoune, Jared Casper, Jeff Rasley, Max Ryabinin, Mayank Mishra, Minjia Zhang, Mohammad Shoeybi, Myriam Peyrounette, Nicolas Patry, Nouamane Tazi, Omar Sanseviero, Patrick von Platen, Pierre Cornette, Pierre François Lavallée, Rémi Lacroix, Samyam Rajbhandari, Sanchit Gandhi, Shaden Smith, Stéphane Requena, Suraj Patil, Tim Dettmers, Ahmed Baruwa, Amanpreet Singh, Anastasia Cheveleva, Anne-Laure Ligozat, Arjun Subramonian, Aurélie Névéol, Charles Lovering, Dan Garrette, Deepak Tunuguntla, Ehud Reiter, Ekaterina Taktasheva, Ekaterina Voloshina, Eli Bogdanov, Genta Indra Winata, Hailey Schoelkopf, Jan-Christoph Kalo, Jekaterina Novikova, Jessica Zosa Forde, Jordan Clive, Jungo Kasai, Ken Kawamura, Liam Hazan, Marine Carpuat, Miruna Clinciu, Najoung Kim, Newton Cheng, Oleg Serikov, Omer Antverg, Oskar van der Wal, Rui Zhang, Ruochen Zhang, Sebastian Gehrmann, Shani Pais, Tatiana Shavrina, Thomas Scialom, Tian Yun, Tomasz Limisiewicz, Verena Rieser, Vitaly Protasov, Vladislav Mikhailov, Yada Pruksachatkun, Yonatan Belinkov, Zachary Bamberger, Zdeněk Kasner, Alice Rueda, Amanda Pestana, Amir Feizpour, Ammar Khan, Amy Faranak, Ana Santos, Anthony Hevia, Antigona Unldreaj, Arash Aghagol, Arezoo Abdollahi, Aycha Tammour, Azadeh Hajihosseini, Bahareh Behroozi, Benjamin Ajibade, Bharat Saxena, Carlos Muñoz Ferrandis, Danish Contractor, David Lansky, Davis David, Douwe Kiela, Duong A. Nguyen, Edward Tan, Emi Baylor, Ezinwanne Ozoani, Fatima Mirza, Frankline Ononiwu, Habib Rezanejad, Hessie Jones, Indrani Bhattacharya, Irene Solaiman, Irina Sedenko, Isar Nejadgholi, Jesse Passmore, Josh Seltzer, Julio Bonis Sanz, Livia Dutra, Mairon Samagaio, Maraim Elbadri, Margot Mieskes, Marissa Gerchick, Martha Akinlolu, Michael Mckenna, Mike Qiu, Muhammed Ghauri, Mykola Burynok, Nafis Abrar, Nazneen Rajani, Nour Elkott, Nour Fahmy, Olanrewaju Samuel, Ran An, Rasmus Kromann, Ryan Hao, Samira Alizadeh, Sarmad Shubber, Silas Wang, Sourav Roy, Sylvain Viguier, Thanh Le, Tobi Oyebade, Trieu Le, Yoyo Yang, Zach Nguyen, Abhinav Ramesh Kashyap, Alfredo Palasciano, Alison Callahan, Anima Shukla, Antonio Miranda-Escalada, Ayush Singh, Benjamin Beilharz, Bo Wang, Caio Brito, Chenxi Zhou, Chirag Jain, Chuxin Xu, Clémentine Fourrier, Daniel León Periñán, Daniel Molano, Dian Yu, Enrique Manjavacas, Fabio Barth, Florian Fuhrimann, Gabriel Altay, Giyaseddin Bayrak, Gully Burns, Helena U. Vrabec, Imane Bello, Ishani Dash, Jihyun Kang, John Giorgi, Jonas Golde, Jose David Posada, Karthik Rangasai Sivaraman, Lokesh Bulchandani, Lu Liu, Luisa Shinzato, Madeleine Hahn de Bykhovetz, Maiko Takeuchi, Marc Pàmies, Maria A Castillo, Marianna Nezhurina, Mario Sänger, Matthias Samwald, Michael Cullan, Michael Weinberg, Michiel de Wolf, Mina Mihaljcic, Minna Liu, Moritz Freidank, Myungsun Kang, Natasha Seelam, Nathan Dahlberg, Nicholas Michio Broad, Nikolaus Muellner, Pascale Fung, Patrick Haller, Ramya Chandrasekhar, Renata Eisenberg, Robert Martin, Rodrigo Canalli, Rosaline Su, Ruisi Su, Samuel Cahyawijaya, Samuele Garda, Shlok S Deshmukh, Shubhanshu Mishra, Sid Kiblawi, Simon Ott, Sinee Sang-Aroonsiri, Srishti Kumar, Stefan Schweter, Sushil Bharati, Tanmay Laud, Théo Gigant, Tomoya Kainuma, Wojciech Kusa, Yanis Labrak, Yash Shailesh Bajaj, Yash Venkatraman, Yifan Xu, Yingxin Xu, Yu Xu, Zhe Tan, Zhongli Xie, Zifan Ye, Mathilde Bras, Younes Belkada, and Thomas Wolf. BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. working paper or preprint, November 2023. URL https://inria.hal.science/hal-03850124.
  • Schulman et al. [2017] John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms, 2017.
  • Sennrich et al. [2015] Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. arXiv preprint arXiv:1508.07909, 2015.
  • Shao et al. [2024] Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, YK Li, Y Wu, and Daya Guo. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
  • Sharma et al. [2019] Eva Sharma, Chen Li, and Lu Wang. BIGPATENT: A large-scale dataset for abstractive and coherent summarization. CoRR, abs/1906.03741, 2019. URL http://arxiv.org/abs/1906.03741.
  • Shashidhar et al. [2023] Sumuk Shashidhar, Abhinav Chinta, Vaibhav Sahai, Zhenhailong Wang, and Heng Ji. Democratizing llms: An exploration of cost-performance trade-offs in self-refined open-source models. In The 2023 Conference on Empirical Methods in Natural Language Processing, 2023.
  • Shazeer [2019] Noam Shazeer. Fast transformer decoding: One write-head is all you need, 2019.
  • Shazeer [2020] Noam Shazeer. Glu variants improve transformer, 2020.
  • Soboleva et al. [2023] Daria Soboleva, Faisal Al-Khateeb, Robert Myers, Jacob R Steeves, Joel Hestness, and Nolan Dey. SlimPajama: A 627B token cleaned and deduplicated version of RedPajama. https://www.cerebras.net/blog/slimpajama-a-627b-token-cleaned-and-deduplicated-version-of-redpajama, 2023. URL https://huggingface.co/datasets/cerebras/SlimPajama-627B.
  • Soldaini et al. [2024] Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, and Kyle Lo. Dolma: An Open Corpus of Three Trillion Tokens for Language Model Pretraining Research. arXiv preprint, 2024. URL https://arxiv.org/abs/2402.00159.
  • Spithoven et al. [2013] André Spithoven, Wim Vanhaverbeke, and Nadine Roijakkers. Open innovation practices in smes and large enterprises. Small business economics, 41:537–562, 2013.
  • Su et al. [2023] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, and Yunfeng Liu. Roformer: Enhanced transformer with rotary position embedding, 2023.
  • Talmor et al. [2018] Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937, 2018.
  • Teknium [2023] Teknium. Openhermes 2.5: An open dataset of synthetic data for generalist llm assistants, 2023. URL https://huggingface.co/datasets/teknium/OpenHermes-2.5.
  • Thuat Nguyen & Nguyen [2024] Huu Nguyen Thuat Nguyen and Thien Nguyen. Culturay: A large cleaned multilingual dataset of 75 languages, 2024.
  • Touvron et al. [2023a] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, and Guillaume Lample. Llama: Open and efficient foundation language models. ARXIV, 2023a.
  • Touvron et al. [2023b] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, and Thomas Scialom. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv: 2307.09288, 2023b.
  • Vaswani et al. [2023] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2023.
  • Versley & Panchenko [2012] Yannick Versley and Yana Panchenko. Not just bigger: Towards better-quality web corpora. In Proceedings of the seventh Web as Corpus Workshop (WAC7), pp. 44–52, 2012.
  • Wang et al. [2024a] Tiannan Wang, Jiamin Chen, Qingrui Jia, Shuai Wang, Ruoyu Fang, Huilin Wang, Zhaowei Gao, Chunzhao Xie, Chuou Xu, Jihong Dai, Yibin Liu, Jialong Wu, Shengwei Ding, Long Li, Zhiwei Huang, Xinle Deng, Teng Yu, Gangan Ma, Han Xiao, Zixin Chen, Danjun Xiang, Yunxia Wang, Yuanyuan Zhu, Yi Xiao, Jing Wang, Yiru Wang, Siran Ding, Jiayang Huang, Jiayi Xu, Yilihamu Tayier, Zhenyu Hu, Yuan Gao, Chengfeng Zheng, Yueshu Ye, Yihang Li, Lei Wan, Xinyue Jiang, Yujie Wang, Siyu Cheng, Zhule Song, Xiangru Tang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang, and Wangchunshu Zhou. Weaver: Foundation models for creative writing. arXiv preprint arXiv: 2401.17268, 2024a.
  • Wang et al. [2024b] Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Li Tianle, Shiguang Guo, Aaran Arulraj, Xuan He, Weiming Ren, Ziyan Jiang, Alex Zhuang, Kai Wang, Richard Fan, Max Ku, Xiang Yue, and Wenhu Chen. Mmlu-pro: Towards more robust and challenging multi-task language understanding evaluation. Manuscript in preparation, 2024b.
  • Wang et al. [2023] Zekun Moore Wang, Zhongyuan Peng, Haoran Que, Jiaheng Liu, Wangchunshu Zhou, Yuhan Wu, Hongcheng Guo, Ruitong Gan, Zehao Ni, Man Zhang, Zhaoxiang Zhang, Wanli Ouyang, Ke Xu, Wenhu Chen, Jie Fu, and Junran Peng. Rolellm: Benchmarking, eliciting, and enhancing role-playing abilities of large language models. arXiv preprint arXiv: 2310.00746, 2023.
  • Wei et al. [2023a] Haoran Wei, Lingyu Kong, Jinyue Chen, Liang Zhao, Zheng Ge, Jinrong Yang, Jianjian Sun, Chunrui Han, and Xiangyu Zhang. Vary: Scaling up the vision vocabulary for large vision-language models. arXiv preprint arXiv:2312.06109, 2023a.
  • Wei et al. [2023b] Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua Yang, Biye Li, Cheng Cheng, Weiwei Lü, Rui Hu, Chenxia Li, Liu Yang, Xilin Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen, Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, and Yahui Zhou. Skywork: A more open bilingual foundation model, 2023b.
  • Xu et al. [2022] Frank F Xu, Uri Alon, Graham Neubig, and Vincent Josua Hellendoorn. A systematic evaluation of large language models of code. In Proceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming, pp. 1–10, 2022.
  • Xu et al. [2023] Jing Xu, Andrew Lee, Sainbayar Sukhbaatar, and Jason Weston. Some things are more cringe than others: Preference optimization with the pairwise cringe loss. arXiv preprint arXiv:2312.16682, 2023.
  • Yang et al. [2024] Qisen Yang, Zekun Wang, Honghui Chen, Shenzhi Wang, Yifan Pu, Xin Gao, Wenhao Huang, Shiji Song, and Gao Huang. Llm agents for psychology: A study on gamified assessments. arXiv preprint arXiv: 2402.12326, 2024.
  • Young et al. [2024] Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, et al. Yi: Open foundation models by 01. ai. arXiv preprint arXiv:2403.04652, 2024.
  • Yu et al. [2024] Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, and Huan Sun. Llasmol: Advancing large language models for chemistry with a large-scale, comprehensive, high-quality instruction tuning dataset. arXiv preprint arXiv:2402.09391, 2024.
  • Yuan et al. [2024] Ruibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, et al. Chatmusician: Understanding and generating music intrinsically with llm. arXiv preprint arXiv:2402.16153, 2024.
  • Yue et al. [2023] Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, and Wenhu Chen. Mammoth: Building math generalist models through hybrid instruction tuning. arXiv preprint arXiv:2309.05653, 2023.
  • Yue et al. [2024] Xiang Yue, Tuney Zheng, Ge Zhang, and Wenhu Chen. Mammoth2: Scaling instructions from the web. arXiv preprint arXiv:2405.03548, 2024.
  • Zaharia et al. [2012] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, Ankur Dave, Justin Ma, Murphy McCauly, Michael J Franklin, Scott Shenker, and Ion Stoica. Resilient distributed datasets: A {Fault-Tolerant} abstraction for {In-Memory} cluster computing. In 9th USENIX symposium on networked systems design and implementation (NSDI 12), pp. 15–28, 2012.
  • Zellers et al. [2019] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? arXiv preprint arXiv:1905.07830, 2019.
  • Zhang & Sennrich [2019] Biao Zhang and Rico Sennrich. Root mean square layer normalization, 2019.
  • Zhang et al. [2023a] Ge Zhang, Yemin Shi, Ruibo Liu, Ruibin Yuan, Yizhi Li, Siwei Dong, Yu Shu, Zhaoqun Li, Zekun Wang, Chenghua Lin, et al. Chinese open instruction generalist: A preliminary release. arXiv preprint arXiv:2304.07987, 2023a.
  • Zhang et al. [2023b] Xiang Zhang, Senyu Li, Bradley Hauer, Ning Shi, and Grzegorz Kondrak. Don’t trust chatgpt when your question is not in english: A study of multilingual abilities and types of llms. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 7915–7927, 2023b.
  • Zhang et al. [2024] Yifan Zhang, Yifan Luo, Yang Yuan, and Andrew Chi-Chih Yao. Automathtext: Autonomous data selection with language models for mathematical texts. arXiv preprint arXiv:2402.07625, 2024.
  • Zheng et al. [2024a] Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et al. Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in Neural Information Processing Systems, 36, 2024a.
  • Zheng et al. [2024b] Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, and Xiang Yue. Opencodeinterpreter: Integrating code generation with execution and refinement. arXiv preprint arXiv:2402.14658, 2024b.
  • Zhu et al. [2023] Banghua Zhu, Evan Frick, Tianhao Wu, Hanlin Zhu, and Jiantao Jiao. Starling-7b: Improving llm helpfulness & harmlessness with rlaif, November 2023.
  • Zhuang et al. [2024a] Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, and Wenhu Chen. Structlm: Towards building generalist models for structured knowledge grounding, 2024a.
  • Zhuang et al. [2024b] Xiaomin Zhuang, Yufan Jiang, Qiaozhi He, and Zhihua Wu. Chuxin: 1.6 b technical report. arXiv preprint arXiv:2405.04828, 2024b.

附录A附录

A.1 英文文本启发式规则的详细信息

表 11: 英文文本启发式规则的详细信息
Rule Note
Document-level Filtering
Mean word length [3, 10] -
Lines that end with an ellipsis 0.2 Defined as ellipsis: ’…’, ’…’, ’……’
Lines starting with bullet point 0.9 Bullet points: UTF8gbsn ”•”, ”●”, ”○”, ”□”, ”※”, ”·” etc.
Words that contain no alphabetical character 0.4 -
Fraction of Stop words in the document must be 0.06 -
Number of stop words in the document must be 2 -
Symbols to words in the content must be <0.5 -
Number of words in the content after normalization [50 ,10000] -
Score of the language identification model must be >0.8 Evaluated by fasttext
Number of characters must be 200 -
Number of lines >1 -
Number of sentences >1 -
Ratio of ” or ” and words in between must be <0.025 -
’lorem ipsum’ count must be <3e08 -
Number of sentences must be <7500 -
Words only consist of uppercase letters 0.1 -
Fraction of Unique words [0.1, +inf) -
Entropy of the unigram distribution of the content within [3, 6] -
Fraction of lines end with ’readmore’ 0.1 -
Fraction of nonconsecutive hashtags in words 0.1 -
Fraction of nonconsecutive ellipsis in words 0.1 -
punctuations in words >0 -
Non-alpha words over non-punctuation words 0.2 -
Digital words over non-punctuation words 0.3 -
Duplicates Filtering
Fraction of characters in duplicate word 10-grams 0.10 -
Fraction of characters in duplicate word 9-grams 0.11 -
Fraction of characters in duplicate word 8-grams 0.12 -
Fraction of characters in duplicate word 7-grams 0.13 -
Fraction of characters in duplicate word 6-grams 0.14 -
Fraction of characters in duplicate word 5-grams 0.15 -
Fraction of characters in top word 4-grams 0.16 -
Fraction of characters in top word 3-grams 0.18 -
Fraction of characters in top word 2-grams 0.20 -
Fraction of duplicate sentences 0.30 -
Fraction of characters in duplicate sentences 0.20 -
Prohibited Words Filtering
Text should not contain words in the bad words list Words related to pornography, politics, violence, etc.

A.2中文文本启发式规则的详细信息

表 12: 中文文本启发式规则的详细信息。
Rule Note
Data Format Unification
Convert full-angle symbols to half-angle -
URL Filtering
The text should not contain blacklisted URLs Blacklists obtained from Blacklists UT1.
Remove links via regular expression -
Sentence-level Filtering
Only retain sentences with terminal punctuation Terminal punctuation: [’.’, ’!’, ’?’, ’……’, ’…’].
Exclude sentences containing ”javascript” -
Contain at least 3 words Word tokenization by jieba.
Exclude sentences with ”lorem ipsum” -
Exclude sentences with bad words Words related to pornography, politics, violence, etc.
Document-level Filtering
Number of sentences >1 -
Characters after normalization [50, 10000] -
Mean word length [1.3, 10] -
Fraction of nonconsecutive hashtags 0.1 -
Fraction of nonconsecutive ellipsis 0.1 Defined as ellipsis: ’…’, ’…’, ’……’.
Fraction of full brackets UTF8gbsn 【】 0.1 -
Fraction of digital words over non-punctuation words 0.3 -
Lines ending with ”readmore” etc. 0.3 Endings include: ”readmore”, UTF8gbsn ”展开”, ”更多”, ”。。。”
Lines starting with bullet point 0.9 Bullet points: UTF8gbsn ”•”, ”●”, ”○”, ”□”, ”※”, ”·” etc.
Fraction of punctuation in words >0 -
Fraction of unique words >0.1 -
Entropy of unigram distribution 3 -
Text quality score >0.4 Evaluated by fasttext
Duplicates Filtering
Fraction of characters in duplicate word 10-grams 0.60 -
Fraction of characters in duplicate word 9-grams 0.60 -
Fraction of characters in duplicate word 8-grams 0.60 -
Fraction of characters in duplicate word 7-grams 0.60 -
Fraction of characters in duplicate word 6-grams 0.60 -
Fraction of characters in duplicate word 5-grams 0.60 -
Fraction of characters in top word 4-grams 0.16 -
Fraction of characters in top word 3-grams 0.18 -
Fraction of characters in top word 2-grams 0.20 -
Fraction of duplicate sentences 0.30 -
Fraction of characters in duplicate sentences 0.20 -

A.3 训练框架溢出详细信息

在本节中,我们将解决威震天核心内的溢出问题。 当定义为 int64_t 的变量 num_samples 超出与sample_idx 关联的 int32_t 的容量时,就会出现问题。 这种差异可能会导致内存泄漏和未定义的行为,如图 8 所示。

Refer to caption
图8: 我们的训练框架修改的代码修改。

A.4中级关卡评估详细提示

在这里,我们介绍了中间检查点评估中每个数据集使用的提示。 由于数据集(BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC easy 和challenge、OpenBookQA、CommonsenseQA、MMLU、CEval、CMMLU)的提示与问题和答案(选项)连接在一起,因此我们没有单独列出它们。 下面,我们提供了用于其他数据集的提示。

布尔Q

HUMAN: Passage: {passage}\nQuestion: {question}?
BOT: Answer: No/Yes

人类评估

HUMAN: Complete the following python code:\n{prompt}

MBPP

HUMAN: You are an expert Python programmer, and here is your task: Write a function to find the similar elements from the given two tuple lists. Your code should pass these tests:\n\n assert similar_elements((3, 4, 5, 6),(5, 7, 4, 10)) == (4, 5)\n assert similar_elements((1, 2, 3, 4),(5, 4, 3, 7)) == (3, 4) \n assert similar_elements((11, 12, 14, 13),(17, 15, 14, 13)) == (13, 14) \n
BOT: [BEGIN]\n def similar_elements(test_tup1, test_tup2):\r\n res = tuple(set(test_tup1) & set(test_tup2))\r\n return (res)’ \n[DONE] \n\n
HUMAN: You are an expert Python programmer, and here is your task: Write a python function to identify non-prime numbers. Your code should pass these tests:\n\n assert is_not_prime(2) == False \n assert is_not_prime(10) == True \n assert is_not_prime(35) == True \n
BOT: [BEGIN]\n import math\r\ndef is_not_prime(n):\r\n result = False\r\n for i in range(2,int(math.sqrt(n)) + 1):\r\n if n % i == 0:\r\n result = True\r\n return result \n[DONE] \n\n
HUMAN: You are an expert Python programmer, and here is your task: Write a function to find the largest integers from a given list of numbers using heap queue algorithm. Your code should pass these tests:\n\n assert heap_queue_largest( [25, 35, 22, 85, 14, 65, 75, 22, 58],3)==[85, 75, 65] \n assert heap_queue_largest( [25, 35, 22, 85, 14, 65, 75, 22, 58],2)==[85, 75] \n assert heap_queue_largest( [25, 35, 22, 85, 14, 65, 75, 22, 58],5)==[85, 75, 65, 58, 35] \n
BOT: [BEGIN]\n import heapq as hq\r\ndef heap_queue_largest(nums,n):\r\n largest_nums = hq.nlargest(n, nums)\r\n return largest_nums \n[DONE] \n\n
HUMAN: You are an expert Python programmer, and here is your task: {text} Your code should pass these tests:\n\n {test_list} \n
BOT: [BEGIN]\n

自然问题

HUMAN: Answer these questions, your answer should be as simple as possible, start your answer with the prompt \’The answer is \’.\nQ: {question}?
BOT: A:

琐事

HUMAN: Answer these questions, your answer should be as simple as possible, start your answer with the prompt \’The answer is \’.\nQ: {question}?
BOT: A:

小队2.0

HUMAN: {context}\nAccording to the above passage, answer the following question. If it is impossible to answer according to the passage, answer impossible to answer‘:\nQuestion: {question}
BOT: Answer:

数学

HUMAN: Problem:\nFind the domain of the expression $\\frac{{\sqrt{{x-2}}}}{{\sqrt{{5-x}}}}$.}}\nSolution:"
BOT: The expressions inside each square root must be non-negative. Therefore, $x-2 \ge 0$, so $x\ge2$, and $5 - x \ge 0$, so $x \le 5$. Also, the denominator cannot be equal to zero, so $5-x>0$, which gives $x<5$. Therefore, the domain of the expression is $\\boxed{{[2,5)}}$.\nFinal Answer: The final answer is $[2,5)$. I hope it is correct.\n
HUMAN: Problem:\nIf $\det \mathbf{{A}} = 2$ and $\det \mathbf{{B}} = 12,$ then find $\det (\mathbf{{A}} \mathbf{{B}}).$\nSolution:
BOT: We have that $\det (\mathbf{{A}} \mathbf{{B}}) = (\det \mathbf{{A}})(\det \mathbf{{B}}) = (2)(12) = \\boxed{{24}}.$\nFinal Answer: The final answer is $24$. I hope it is correct.\n
HUMAN: Problem:\nTerrell usually lifts two 20-pound weights 12 times. If he uses two 15-pound weights instead, how many times must Terrell lift them in order to lift the same total weight?\nSolution:
BOT: If Terrell lifts two 20-pound weights 12 times, he lifts a total of $2\cdot 12\cdot20=480$ pounds of weight. If he lifts two 15-pound weights instead for $n$ times, he will lift a total of $2\cdot15\cdot n=30n$ pounds of weight. Equating this to 480 pounds, we can solve for $n$: \\begin{{align*}} 30n&=480\\\\ \Rightarrow\qquad n&=480/30=\\boxed{{16}} \end{{align*}}\nFinal Answer: The final answer is $16$. I hope it is correct.\n
HUMAN: Problem:\nIf the system of equations: \\begin{{align*}} 6x-4y&=a,\\\\ 6y-9x &=b. \end{{align*}}has a solution $(x, y)$ where $x$ and $y$ are both nonzero, find $\\frac{{a}}{{b}},$ assuming $b$ is nonzero.\nSolution:
BOT: If we multiply the first equation by $-\\frac{{3}}{{2}}$, we obtain $$6y-9x=-\\frac{{3}}{{2}}a.$$Since we also know that $6y-9x=b$, we have $$-\\frac{{3}}{{2}}a=b\Rightarrow\\frac{{a}}{{b}}=\\boxed{{-\\frac{{2}}{{3}}}}.$$\nFinal Answer: The final answer is $-\\frac{{2}}{{3}}$. I hope it is correct.\n
HUMAN: Problem:\n{problem}\nSolution:\n

GSM8K

HUMAN: Question: Angelo and Melanie want to plan how many hours over the next week they should study together for their test next week. They have 2 chapters of their textbook to study and 4 worksheets to memorize. They figure out that they should dedicate 3 hours to each chapter of their textbook and 1.5 hours for each worksheet. If they plan to study no more than 4 hours each day, how many days should they plan to study total over the next week if they take a 10-minute break every hour, include 3 10-minute snack breaks each day, and 30 minutes for lunch each day?\nLets think step by step\nAnswer: ,
BOT: Angelo and Melanie think they should dedicate 3 hours to each of the 2 chapters, 3 hours x 2 chapters = 6 hours total.\nFor the worksheets they plan to dedicate 1.5 hours for each worksheet, 1.5 hours x 4 worksheets = 6 hours total.\nAngelo and Melanie need to start with planning 12 hours to study, at 4 hours a day, 12 / 4 = 3 days.\nHowever, they need to include time for breaks and lunch. Every hour they want to include a 10-minute break, so 12 total hours x 10 minutes = 120 extra minutes for breaks.\nThey also want to include 3 10-minute snack breaks, 3 x 10 minutes = 30 minutes.\nAnd they want to include 30 minutes for lunch each day, so 120 minutes for breaks + 30 minutes for snack breaks + 30 minutes for lunch = 180 minutes, or 180 / 60 minutes per hour = 3 extra hours.\nSo Angelo and Melanie want to plan 12 hours to study + 3 hours of breaks = 15 hours total.\nThey want to study no more than 4 hours each day, 15 hours / 4 hours each day = 3.75\nThey will need to plan to study 4 days to allow for all the time they need.\nThe answer is 4,
HUMAN :Question: Marks basketball team scores 25 2 pointers, 8 3 pointers and 10 free throws. Their opponents score double the 2 pointers but half the 3 pointers and free throws. Whats the total number of points scored by both teams added together?\nLets think step by step\nAnswer:,
BOT: Marks team scores 25 2 pointers, meaning they scored 25*2= 50 points in 2 pointers.\nHis team also scores 6 3 pointers, meaning they scored 8*3= 24 points in 3 pointers\nThey scored 10 free throws, and free throws count as one point so they scored 10*1=10 points in free throws.\nAll together his team scored 50+24+10= 84 points\nMarks opponents scored double his teams number of 2 pointers, meaning they scored 50*2=100 points in 2 pointers.\nHis opponents scored half his teams number of 3 pointers, meaning they scored 24/2= 12 points in 3 pointers.\nThey also scored half Marks teams points in free throws, meaning they scored 10/2=5 points in free throws.\nAll together Marks opponents scored 100+12+5=117 points\nThe total score for the game is both teams scores added together, so it is 84+117=201 points\nThe answer is 201\n,
HUMAN: Question: Bella has two times as many marbles as frisbees. She also has 20 more frisbees than deck cards. If she buys 2/5 times more of each item, what would be the total number of the items she will have if she currently has 60 marbles?\nLets think step by step\nAnswer:,
BOT: When Bella buys 2/5 times more marbles, shell have increased the number of marbles by 2/5*60 = 24\nThe total number of marbles shell have is 60+24 = 84\nIf Bella currently has 60 marbles, and she has two times as many marbles as frisbees, she has 60/2 = 30 frisbees.\nIf Bella buys 2/5 times more frisbees, shell have 2/5*30 = 12 more frisbees.\nThe total number of frisbees shell have will increase to 30+12 = 42\nBella also has 20 more frisbees than deck cards, meaning she has 30-20 = 10 deck cards\nIf she buys 2/5 times more deck cards, shell have 2/5*10 = 4 more deck cards.\nThe total number of deck cards shell have is 10+4 = 14\nTogether, Bella will have a total of 14+42+84 = 140 items\nThe answer is 140\n,
HUMAN: Question: A group of 4 fruit baskets contains 9 apples, 15 oranges, and 14 bananas in the first three baskets and 2 less of each fruit in the fourth basket. How many fruits are there?\nLets think step by step\nAnswer:,
BOT: For the first three baskets, the number of apples and oranges in one basket is 9+15=24\nIn total, together with bananas, the number of fruits in one basket is 24+14=38 for the first three baskets.\nSince there are three baskets each having 38 fruits, there are 3*38=114 fruits in the first three baskets.\nThe number of apples in the fourth basket is 9-2=7\nThere are also 15-2=13 oranges in the fourth basket\nThe combined number of oranges and apples in the fourth basket is 13+7=20\nThe fourth basket also contains 14-2=12 bananas.\nIn total, the fourth basket has 20+12=32 fruits.\nThe four baskets together have 32+114=146 fruits.\nThe answer is 146\n,
HUMAN: Question: {question}\nLets think step by step\nAnswer:

定理QA

HUAMN: You are a mathematician, you are supposed to answer the given question. You need to output the answer in your final sentence like "Therefore, the answer is ...". The answer can only be one of the following forms:\n1. a numerical value like 0.1, no symbol and no unit at all.\n2. a list of number like [2, 3, 4].\n3. True/False.\n4. an option like (a), (b), (c), (d)\nQuestion: {Question}\nLet\’s think step by step.

A.5详细结果

所有中间检查点的评估结果均使用OpenCompass框架[26]获得。

表 13: 此表显示了使用不同词符数量(范围从 20B 到 1859.86B)训练的模型在各种数据集上的评估结果。 此外,使用 2099.84B 到 3726.33B Token 训练的模型的结果可以在表 14 中找到。 “Avg”代表基准的平均值。 “*”符号指的是 MMLU、CMMLU 和 C-Eval 内的子集。
Dataset 20.00B 60.00B 99.99B 359.97B 599.95B 859.93B 1099.91B 1299.90B 1599.88B 1859.86B
Standard Benchmarks
BoolQ 58.81 60.28 58.96 61.9 61.62 62.29 62.35 63.67 59.02 61.35
PIQA 67.25 70.35 73.56 76.06 76.12 77.64 77.75 77.58 77.58 77.91
SIQA 38.33 41.04 40.43 41.71 41.4 42.48 42.99 42.99 42.43 44.06
HellaSwag 32.53 47.07 52.03 61.32 63.61 64.83 65.75 66.11 67.35 67.69
WinoGrande 52.09 53.12 53.2 55.25 55.41 57.38 57.93 58.09 58.09 59.67
ARC-e 35.27 43.39 51.15 57.5 57.32 57.5 58.02 58.91 62.08 60.14
ARC-c 23.39 20 23.73 29.49 28.14 31.86 32.2 32.2 32.54 33.22
OpenBookQA-Fact 26.2 23.8 23.8 28.8 43.6 48.6 51.8 59.6 62 70
CommonsenseQA 34.32 48.32 51.43 59.54 61.43 63.72 66.09 64.95 65.19 65.44
MMLU-AVG 24.8 24.38 26.72 36.06 43.92 47.32 47.96 50.65 51.18 51.95
*-humanities 24.5 25.25 26.71 37.5 44.58 49.26 50.58 52.92 53.62 54.29
*-stem 24.4 23.26 26.76 30.83 36.82 39.98 40.89 42.7 42.72 44.24
*-social-science 22.8 23.58 26.9 39.7 49.07 53.77 53.71 57.75 58.93 58.73
*-other 27.52 25.87 26.52 38.89 48.9 50.15 50.37 53.42 53.94 54.62
Code Generation
HumanEval 0.61 2.44 4.27 6.1 7.32 7.93 7.32 7.32 9.15 6.1
MBPP 0 0.4 0 3.4 6.6 6.4 9.2 9.4 8.8 6.6
World Knowledge
NQ 0.08 1.55 2.8 5.1 5.79 7.51 7.84 9.34 9.03 8.01
TriviaQA 1.2 6.9 9.54 19.64 25.97 22.24 28.6 28.22 34.19 31.31
Reading Comprehension
SQuAD2.0 4.54 15.94 24.2 27.06 31.05 31.48 30.68 12.56 31.35 25.76
Exams
MATH 0.6 1.22 1.16 2.62 2.8 3.18 3.6 3.82 3.44 4.24
GSM8k 1.59 0.76 0.99 4.09 7.66 9.78 12.05 11.52 15.24 14.48
TheoremQA 0 0 0.5 0.75 1.38 1.5 1.38 0.75 0.62 0.38
Chinese
C-EVAL-AVG 24.87 24.66 25.48 36.55 44.3 46.9 50.01 52.1 52.4 52.95
*-stem 26.8 24.04 24.47 31.43 35.45 38.5 39.86 42.67 45.14 45.49
*-social-science 26.99 29.16 27.19 47.15 56.78 61.6 66.94 68.71 68.29 67.01
*-humanities 24.5 22.64 25.42 41.47 49.66 49 53.04 58.19 56.2 58.41
*-other 19.82 23.72 25.82 31.29 43.67 46.71 50.04 48.06 47.33 48.28
*-hard 30.97 23.78 21.87 25.69 28.04 31.1 36.06 37.5 33.66 38.08
CMMLU-AVG 25.11 25.18 25.96 35.48 42.93 47.54 48.85 50.14 50.94 52.18
*-humanities 25.54 25.62 25.79 38.44 47.19 50.58 51.76 54.35 54.22 55.55
*-stem 24.96 24.26 25.15 28.82 34.34 38.7 39.26 39.23 40.92 42.79
*-social-science 25.05 25.91 26.78 38.72 46.14 51.96 53.18 54.53 55.26 56.85
*-other 24.99 24.76 25.83 35.69 44.29 48.44 50.83 52.41 53.11 53.05
*-china-specific 24.4 25.62 25.14 38.02 43.86 48.96 50.14 52.46 53.15 54.03
表 14: 该表显示了使用不同词符数量(范围从 2099.84B 到 3726.33B)训练的模型在各种数据集上的评估结果。 此外,使用 20B 到 1859.86B Token 训练的模型的结果可以在表 13 中找到。 “Avg”代表基准的平均值。 “*”符号指的是 MMLU、CMMLU 和 C-Eval 内的子集。
Dataset 2099.84B 2359.82B 2599.80B 2859.78B 3099.76B 3299.74B 3599.72B 3726.33B
Standard Benchmarks
BoolQ 60.89 63.12 59.36 64.56 63.67 63.18 65.35 66.09
PIQA 77.91 78.02 78.35 78.56 78.94 78.67 78.13 78.29
SIQA 44.06 44.06 43.3 43.71 44.01 43.45 44.63 43.19
HellaSwag 68.6 68.52 69.04 69.78 70.06 70.02 70.46 70.17
WinoGrande 58.96 59.83 59.91 60.06 61.25 59.75 59.67 60.46
ARC-e 62.43 62.61 63.32 61.73 61.73 62.26 62.43 64.02
ARC-c 23.39 20 37.29 35.93 35.59 36.95 34.58 34.58
OpenBookQA-Fact 63.8 61.6 60 66 59.6 59.4 69 62.2
CommonsenseQA 66.42 65.77 67.32 67.98 67.57 67.57 67.81 67.73
MMLU-AVG 52.72 53.25 53.93 54.71 55.34 55.8 55.42 55.91
*-humanities 54.18 56.75 57.2 57.25 58.34 58.19 58.71 59.22
*-stem 44.48 44.08 44.19 45.56 45.92 46.53 46.42 46.37
*-social-science 60.72 61.02 61.87 63.45 63.87 64.86 62.63 63.72
*-other 55.9 55.96 57.58 57.49 58.23 58.61 58.61 59.33
Code Generation
HumanEval 8.54 3.66 6.71 6.71 7.32 3.66 9.76 9.15
MBPP 8.4 9.4 8.8 8.6 8.8 8.8 9.2 9
World Knowledge
NQ 10.97 10.19 10.03 11.77 10.66 12.63 11.44 11.27
TriviaQA 36.53 31.06 37.9 39.29 40.81 41.27 41.08 39.54
Reading Comprehension
SQuAD2.0 25.29 26.98 11.35 5.13 6.18 16.68 15.55 8.72
Exams
MATH 4.84 4.34 4.94 5.36 5.6 5.72 5.9 5.76
GSM8k 14.94 17.36 17.29 18.95 19.18 19.79 19.11 21.3
TheoremQA 1.38 0.5 1 3 2.38 2 1.5 2.5
Chinese
C-EVAL-AVG 52.52 55.62 57.4 57.03 56.02 57.57 58.1 57.13
*-stem 44.77 49.52 51.84 49.08 46.52 50.26 50.26 49.47
*-social-science 66.71 70.3 71.62 71.43 70.74 73.33 73.05 72.61
*-humanities 58.08 58.6 61.96 62.09 61.14 60.96 61.46 62.06
*-other 48.18 50.39 50.03 53.35 54.79 53.12 55.41 52.03
*-hard 34.8 39.89 44.08 39.87 36.42 41.26 38.64 40.47
CMMLU-AVG 52.45 54.79 56.15 56.63 57.33 58.11 57.7 58.32
*-humanities 56.42 60.23 60.97 61.09 63 63.69 63.73 65.04
*-stem 42.17 44.38 45.95 46.16 46.54 47.82 46.63 47.91
*-social-science 57.34 59.26 60.42 61.79 62.27 62.93 62.83 63.25
*-other 53.51 55.34 57.27 57.09 57.4 57.84 57.5 57.05
*-china-specific 54.82 56.86 58.15 58.07 59.51 60.47 60.74 60.29
表 15: 此表显示了衰减阶段(从 62.91B 到 723.52B)不同训练标记模型的各种数据集的评估结果。 “Avg”代表基准的平均值。 “*”符号指的是 MMLU、CMMLU 和 C-Eval 内的子集。
Dataset 62.91B 104.86B 199.23B 293.60B 419.43B 524.29B 639.63B 723.52B
Standard Benchmarks
BoolQ 52.51 50.73 47 63.7 65.38 78.32 70.34 81.07
PIQA 75.41 75.41 75.73 76.71 77.04 75.9 75.3 76.55
SIQA 48.36 49.13 50.31 50.31 51.28 69.45 68.73 68.22
HellaSwag 62.79 63.98 65.19 66.17 66.43 69.57 70 70.74
WinoGrande 62.04 63.69 64.01 65.75 66.06 59.43 59.59 59.83
ARC-c 58.64 60.34 63.73 61.36 68.47 45.42 63.39 68.14
OpenBookQA-Fact 75.6 76.2 77.2 74.2 79 79.6 73.4 82
CommonsenseQA 60.36 63.06 63.72 64.54 63.14 68.96 69.7 69.94
MMLU-AVG 52.53 53.31 54.83 55.51 56.11 57.17 57.36 58.14
*-humanities 54.59 57.44 57.8 58.12 59.5 60.76 59.77 60.7
*-stem 45.68 45.58 48.37 47.29 48.48 49.82 49.31 49.84
*-social-science 59.6 60.69 61.19 63.95 64.45 64.78 65.27 66.78
*-other 53.94 53.65 55.43 57.14 56.17 57.31 59.42 59.73
Code Generation
HumanEval 6.1 7.32 3.05 11.59 0.61 21.95 20.12 24.39
MBPP 20.8 25 24.8 28.2 28.4 27 27.8 27
World Knowledge
NQ 4.04 6.4 5.43 5.04 3.21 9.94 8.23 9.97
TriviaQA 15.27 27.31 24.76 34.32 44.03 37.5 32.66 42.36
Reading Comprehension
SQuAD2.0 33.72 13.57 27.1 30.89 16.8 29.56 19.37 30.98
Exams
MATH 6.62 8.62 10.08 12.88 12.24 14.06 14.12 14.66
GSM8K 18.35 37.83 41.85 45.03 49.43 50.64 53.37 52.01
Chinese
C-EVAL-AVG 48.96 51.29 53.66 54.96 55.71 57.58 54.25 57.68
*-stem 43.61 45.69 49.82 47.14 49.71 52.12 45.77 50.35
*-social-science 60.77 66.43 66.94 69 67.7 70.33 71.08 70.23
*-humanities 50.55 51.2 53.26 60.74 59.11 63.29 59.05 63.49
*-other 46.37 47.77 48.95 50.63 52.3 50.22 49.55 53.78
*-hard 35.01 38.33 42.48 39.61 41.27 46.02 37.02 41.07
CMMLU-AVG 48.03 49.1 51.37 53.26 53.32 54.48 54.59 55.1
*-humanities 52.86 53.77 56.23 58.01 59.12 60.08 61.75 62.24
*-stem 39.16 40.38 43.52 43.64 44.01 45.89 45.23 45.62
*-social-science 52.01 52.89 55.19 57.57 57.53 58.36 58.31 59.39
*-other 48.04 49.37 50.45 53.72 52.65 53.66 53.55 53.39
*-china-specific 47.63 48.99 51.51 52.74 53.57 54.78 54.87 55.84
Refer to caption
(a) MMLU
Refer to caption
(b) CEval
Refer to caption
(c) CMMLU
Refer to caption
(d) Hellaswag
Refer to caption
(e) GSM8K
Refer to caption
(f) ARC-c
图9: MMLU、CEvel、CMMLU、Hellaswag、GSM8K 和 ARC-c 上基本相位中间检查点的性能。

A.6预训练使用的开源数据集详细信息

表 16: 预训练期间使用的开源数据集列表。
Dataset URL
Agent-FLAN [17] https://huggingface.co/datasets/internlm/Agent-FLAN
ChatDoctor-HealthCareMagic-100k https://huggingface.co/datasets/lavita/ChatDoctor-HealthCareMagic-100k
Fandom23K [82] https://huggingface.co/datasets/RyokoAI/Fandom23K
LoC-PD-Books https://huggingface.co/datasets/storytracer/LoC-PD-Books
MNBVC https://huggingface.co/datasets/liwu/MNBVC
Refined-Anime-Text https://huggingface.co/datasets/CausalLM/Refined-Anime-Text
SKGInstruct-skg-only [127] https://huggingface.co/datasets/TIGER-Lab/SKGInstruct-skg-only
US-PD-Books https://huggingface.co/datasets/storytracer/US-PD-Books
UltraTextbooks https://huggingface.co/datasets/Locutusque/UltraTextbooks
big_patent [90] https://huggingface.co/datasets/big_patent
clean_notebooks_filtered https://huggingface.co/datasets/vikp/clean_notebooks_filtered
libre_chem_textbooks https://huggingface.co/datasets/Hack90/libre_chem_textbooks
mental_health_chatbot_dataset https://huggingface.co/datasets/heliosbrahma/mental_health_chatbot_dataset
mini-peS2o https://huggingface.co/datasets/nampdn-ai/mini-peS2o
textbooks https://huggingface.co/datasets/open-phi/textbooks
pile-of-law [39] https://huggingface.co/datasets/pile-of-law/pile-of-law
prepared-automathtext https://huggingface.co/datasets/Locutusque/prepared-automathtext
scimag https://scimag.github.io/sciMAG2015/
textbook_quality_programming https://huggingface.co/datasets/vikp/textbook_quality_programming
textbooks https://huggingface.co/datasets/open-phi/textbooks
tiny-strange-textbooks [71] https://huggingface.co/datasets/nampdn-ai/tiny-strange-textbooks
COIG-PC [121] https://huggingface.co/datasets/BAAI/COIG-PC
FinCorpus https://huggingface.co/datasets/Duxiaoman-DI/FinCorpus
archive https://huggingface.co/datasets/linux-cn/archive
medical https://huggingface.co/datasets/shibing624/medical
AutoMathText [123] https://huggingface.co/datasets/math-ai/AutoMathText
BioInstructQA https://huggingface.co/datasets/BioMistral/BioInstructQA
SMolInstruct [114] https://huggingface.co/datasets/osunlp/SMolInstruct
cosmopedia [8] https://huggingface.co/datasets/HuggingFaceTB/cosmopedia
starcoder [54] https://huggingface.co/datasets/bigcode/starcoderdata
the-stack-v2-train-full-ids [68] https://huggingface.co/datasets/bigcode/the-stack-v2-train-full-ids
flan_v2 [67] https://github.com/google-research/FLAN/tree/main/flan/v2
open-web-math [73] https://huggingface.co/datasets/open-web-math/open-web-math
表 17: 术语“n ROUND”表示每个数据集的轮数。
Dataset Language Used during the Fundamental Phase Used during the Decay Phase
MNBVC(gov report) Chinese 2 ROUND -
US-PD-Books English 1 ROUND 1 ROUND
MNBVC(law judgement) Chinese 2 ROUND -
cosmopedia English - 2 ROUND
AutoMathText English 1 ROUND 2 ROUND
BioInstructQA English 1 ROUND 2 ROUND
SMolInstruct English 1 ROUND 2 ROUND
Agent-FLAN English - 2 ROUND
MNBVC(gov xuexiqiangguo) Chinese 2 ROUND -
open-web-math English 1 ROUND 2 ROUND
The Stack Code 2 ROUND -

A.7详细压缩率

A.8缩放定律的附加实验结果

Refer to caption
图10: OLMo大语言模型的损失曲线、Chinchilla Law预测和NEO Scaling law预测。 我们使用 1B 和 7B 中的损失值进行拟合和预测。

从图10中,我们可以观察到Chinchilla定律已经为OLMo提供了很好的拟合,并且不会像MAP-Neo 7B和DeepSeek那样低估模型参数较大但数据量较小时的损失67B。 这种现象可能是由于预训练数据集的分布造成的。 Deepseek的预训练数据分布与NEO非常相似,与OLMo的英文预训练数据相比,中文数据、代码数据和高质量过滤数据的比例更高

Chinchilla 缩放法则最初是针对训练数据相对同质且主要以英语为中心的场景制定的。 在这些条件下它往往表现良好。 然而,当训练数据集大小较小(例如,明显小于 5000 亿个 Token )并且模型参数计数较高(例如,70 亿或更多)时,数据的多样性导致损失的减少速度比预测的要慢。龙猫。 相反,对于更大的数据集(例如,超过 1.5 万亿个 Token ),多样性有助于损失的持续减少,偏离了 Chinchilla 定律中 BDβ 术语所建议的扁平化和下限轨迹。 目前的证据有限,因为很少有模型是在多个大型高质量语料库中进行预训练的。 Yi 和 Qwen [7] 进行多阶段预训练,初始训练语料库明显小于 MAP-Neo 和 DeepSeek,而 OpenLLaMA [34] 缺乏更小的初始训练语料库。缩放数据以验证这些观察结果。

A.9压缩率

表 18: 按类别和数据集列出的详细压缩率。
Category Dataset Compression Rate
Code Sampled Code(cpp) 2.988
Sampled Code(Java) 3.301
Sampled Code(All) 3.355
Sampled Github 2.988
Sampled Code(Other) 3.426
CodeGPT-CN 2.458
Sampled LeetCode 2.050
The Stack V1 3.041
HQ_cn COIG-PC 1.835
Sampled Novel 1.284
Sampled Reference Book 1.240
Exams High Quality 2.290
Zhihu High Quality 1.377
Zhihu Instruction 1.434
HQ_en Arxiv High Quality 2.976
Sampled News Paper 3.613
Sampled English Books 2.079
flan_v2 3.645
Huggingface Wiki 3.520
UltraTextbooks 4.030
Others AutoMathText 2.756
BioInstructQA 3.284
Synthetic science exam instruction 1.508
open-web-math 3.263
SMolInstruct 1.978
Web_cn Common Crawl 1.418
Web_en Common Crawl 3.699

A.10 OCR 后处理

表 19: 中英文OCR提示模板及演示

UTF8gbsn Prompt Template for OCR Post-processing ➤ Prompt Templates Prompt for English Contents Prompt for Chinese Contents From an original document using OCR technology, there may be errors in character recognition, potentially including spelling mistakes, grammatical errors, incorrect punctuation, or formatting issues. Pay special attention to misplaced spaces and line breaks that often occur in OCR-generated content. I need you to reorganize the paragraph into a properly formatted and semantically coherent form. Here’s the text I’ve provided. Kindly check and correct it meticulously. Please output only the revised text without including any additional content i.e. any comments from you. The output format should be a well-organized markdown content. Do not change the language, i.e. Do not change Chinese content to English. Some contents are mixed language i.e. Chinese main content with English symbols. Also, do not change the original language. Please do not generate any unrelated additional comments! Here’s one of the texts that needs to be processed: {content} You should output: 请扮演一个AI校对员,我需要你的专业技能来帮助我校对一段文本。这段文本是我通过OCR技术从一份原始文档中提取出来的,我怀疑在字符识别的过程中可能发生了一些错误。具体来说,可能存在拼写错误、语法错误、标点用错或者格式排列问题。请特别注意生成的内容中有很多识别错误的空格与换行符。请将段落整理成正确的语义通顺的格式。输出格式应为组织完善的 Markdown 内容。 不能改变语言,即不能将中文内容改为英文。一些内容是混合语言的,即中文主要内容夹杂英文符号, 请按照原段落位置的语言输出。下面是我提供的文本内容,请你帮我仔细检查并校对,请直接输出修订后文本,并不要包含其他内容。 {内容} 你应该输出: ➤ Demonstrations English Content Before Post-processing English Content After Post-processing T h e D ev elo p i n g P a th o f C i v il S er v a n t S y stem i n C h i n a :B ased on C o m p reh en siv e I n ter p reta ti on of C i vi l S er va n t L a w A bst r a c t:C iv i l S e r va nt L a W i S the f h-st com pre he nsi v e l a w of hum an m an a g em e nt of c iv i l se rv an t i n our country.T he civil serv an t system has undergone a great leap forward from Temporary Regulation of C i v i l S erv a nts to C }vi l S e rv a n t L a w .C om par i ng to the T emp or a ry R eg ula tio n C }vi l S e rv a n ts ,C i l S e r va n t W ha s ma ny ne w c ontents i nc lud ing new co nnota tio n of the co nc epts an d som e new rul e s that are written into the law fo r the fi rst time.T here are alSO some adiustments to the former articles. K ey W or ds :C i v i l serv ant;D e v el opi ng P a th ;C i vi l S e rv a nt L a w 1 1 2 The Developing Path of the Civil Servant System in China: Based on Comprehensive Interpretation of the Civil Servant Law Abstract: The Civil Servant Law is the first comprehensive law on human resource management for civil servants in our country. The civil servant system has made a great leap forward from the Temporary Regulation of Civil Servants to the Civil Servant Law. Compared to the Temporary Regulation of Civil Servants, the Civil Servant Law contains many new contents, including new connotations of concepts and some new rules that are written into the law for the first time. There are also some adjustments to the former articles. Keywords: Civil servant; Developing path; Civil Servant Law 112 Chinese Content Before Post-processing Chinese Content After Post-processing 路上     只我  一个人,    背 着手  踱着。这一 片天地  好像   是   我的  ;我    也像   超出  了  平常 的自己,  到      了   另一世  界里。我 爱  热闹,  也爱   冷静;爱群居,   也爱   独处。像  今  晚上,   一  个  人   在这苍茫的  月下 , 什 么都 可以   想, 什 么  都 可以  不   想   , 便 觉 是  个 自  由 的  人。白  天里  一定  要   做的   事,一  定 要  说 的  话,现  在    都   可  不 理 。 这 是  独 处 的 妙  处 ,  我 且   受 用 这  无边  的荷 香 月  色   好 了 。 路上只我一个人,背着手踱着。这一片天地好像是我的;我也像超出了平常的自己,到了另一世界里。我爱热闹,也爱冷静;爱群居,也爱独处。像今晚上,一个人在这苍茫的月下,什么都可以想,什么都可以不想,便觉是个自由的人。白天里一定要做的事,一定要说的话,现在都可不理。这是独处的妙处,我且受用这无边的荷香月色好了。