卡拉狄加：大型科学语言模型

Ross Taylor &Marcin Kardas &Guillem Cucurull Thomas Scialom &Anthony Hartshorn &Elvis Saravia Andrew Poulton &Viktor Kerkez &Robert Stojnic
Meta AI

摘要

信息超载是科学进步的主要障碍。科学文献和数据的爆炸性增长使得从大量信息中发现有用的见解变得越来越困难。如今，科学知识可以通过搜索引擎获取，但它们无法单独组织科学知识。在本文中，我们介绍了卡拉狄加：一种可以存储、组合和推理科学知识的大型语言模型。我们使用大量论文、参考资料、知识库和许多其他来源的科学资料库进行训练。我们在一系列科学任务上都优于现有模型。在 LaTeX 方程等技术知识探索中，Galatica 的性能优于最新的 GPT-3，分别为 68.2% 和 49.0%。 Galatica 在推理方面也表现出色，在数学 MMLU 上比 Chinchilla 高出 41.3% 比 35.7%，在 MATH 上比 PaLM 540B 高出 20.4% 对 8.8%。它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了新的最先进水平，分别为 77.6% 和 52.9%。尽管没有在通用语料库上进行训练，但卡拉狄加在 BIG-bench 上的表现优于 BLOOM 和 OPT-175B。我们相信这些结果证明了语言模型作为新的科学接口的潜力。我们将模型开源，以造福科学界¹¹1galactica.org。

1简介

计算的最初承诺是解决科学中的信息过载问题。万尼瓦尔·布什 (Vannevar Bush) 在 1945 年的文章“正如我们所想”中观察到“出版的范围远远超出了我们目前真正利用记录的能力”（Bush，1945）。他提出将计算机作为管理不断增长的信息山的解决方案。利克莱德对此进行了扩展，提出了人类与机器之间共生关系的愿景。计算机将负责存储和检索等日常任务，“为科学思维中的见解和决策铺平道路”（Licklider，1960）。

计算确实彻底改变了研究的进行方式，但信息过载仍然是一个巨大的问题（Bornmann 和 Mutz，2014）。 2022 年 5 月，平均每天向 arXiv 提交 516 篇论文（arXiv，2022）。除了论文之外，科学数据的增长速度也远远快于我们处理数据的能力（Marx，2013）。截至 2022 年 8 月，NCBI GenBank 包含 $1.49\times 10^{12}$ 个核苷酸碱基（GenBank，2022）。由于信息量巨大，一个人不可能读完某个领域的所有论文；组织有关基本科学现象的数据同样具有挑战性。

搜索引擎是当前遵循 Licklider 范式访问科学知识的界面。但它们并不直接组织知识，而是指向组织文献和数据的二级层，例如 Wikipedia、UniProt 和 PubChem Compound。这些资源需要昂贵的人类贡献，例如撰写文献综述、百科全书文章或注释蛋白质。考虑到这一瓶颈，即使拥有强大的搜索工具，研究人员仍然感到不知所措。

在本文中，我们主张通过大型语言模型找到更好的方法。与搜索引擎不同，语言模型可以存储、组合和推理科学知识。例如，根据文献训练的模型可能会发现不同研究之间隐藏的联系，发现隐藏的宝石，并将这些见解浮出水面。它可以通过自动生成辅助内容来综合知识：例如文献评论、百科全书文章、讲座笔记等。最后，它可以组织不同的模式：将论文与代码连接、将蛋白质序列与化合物连接、将理论与 LaTeX 连接等等。我们的最终愿景是为科学任务提供支持的单一神经网络。我们相信这将成为人类获取科学知识的下一个界面，我们从这篇论文开始。

1.1 我们的贡献

我们引入了一种新的大型语言模型，称为卡拉狄加（GAL），用于自动组织科学。卡拉狄加接受了大量精心策划的人类科学知识库的训练。其中包括超过 4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质、科学网站、百科全书等。与现有的语言模型不同，现有的语言模型依赖于未经策划的基于爬行的范例，我们的语料库是高质量且经过精心策划的。我们能够在多个时期对其进行训练而不会过度拟合，其中上游和下游性能通过使用重复的 Token 得到改善。

数据集设计对于我们的方法至关重要，其中包括策划高质量的数据集和设计与知识体系交互的界面。所有数据都以通用的降价格式进行处理，以混合来源之间的知识。我们还在预训练中包含特定于任务的数据集，以促进将这些知识组合到新的任务上下文中。对于界面，我们使用特定于任务的标记来支持不同类型的知识。我们使用特殊的词符处理引文，使研究人员能够在给定任何输入上下文的情况下预测引文。我们将逐步推理包装在一个特殊的词符中，模仿内部工作记忆。最后，我们将微笑和蛋白质序列等模式包装在特殊的标记中，这允许研究人员使用自然语言与它们进行交互。借助该界面和模型中的科学知识体系，我们在许多科学任务中取得了最先进的结果。

在推理任务上，卡拉狄加在 MMLU 和 MATH 等基准测试中击败了现有语言模型（Hendrycks 等人，2020，2021）。通过我们的推理词符方法，我们在数学 MMLU 上的表现优于 Chinchilla，平均得分为 41.3% 对 35.7%（Hoffmann 等人，2022）。我们的 120B 模型在 MATH 上取得了 20.4% 的成绩，而 PaLM 540B 的成绩为 8.8%（Chowdhery 等人，2022；Lewkowycz 等人，2022）。 30B 模型在这项任务上也击败了 PaLM 540B，参数减少了 18 倍。我们相信，这为深度学习工具包增加了另一种推理方法，以及最近得到充分探索的现有思维链方法（Wei等人，2022；Suzgun等人，2022）。

我们还发现卡拉狄加在知识密集型科学任务中表现强劲。我们对卡拉狄加的方程知识、化学反应知识和其他科学知识进行了详细的知识探索。 Galoida 在这些任务中显着超过了通用语言模型（例如最新的 GPT-3）的性能；在 LaTeX 方程上，它的得分为 68.2%，而最新 GPT-3 的得分为 49.0% (Brown 等人, 2020)。 Galoida 在下游科学任务中也表现出色，我们在 PubMedQA (77.6%) 和 MedMCQA dev (52.9%) 等几个下游任务上设定了新的 state-of-the-art (Jin 等人, 2019; Pal等人，2022）。

我们还展示了卡拉狄加界面的新功能。首先，预测引文的能力随着规模的扩大而平稳提高，我们还发现该模型在建模引文的基本分布方面变得更好：经验分布函数随着规模的扩大而接近参考分布。重要的是，我们发现这种方法优于用于引文预测的稀疏和密集检索方法。这与其他结果一起证明了语言模型以其权重记忆中的上下文关联能力取代 Licklider 范式、文档存储和检索的潜力。

此外，卡拉狄加还可以执行涉及 SMILES 化学公式和蛋白质序列的多模式任务。我们将药物发现任务制定为文本提示，并在弱监督设置中显示性能尺度。我们还证明卡拉狄加以自我监督的方式学习 IUPAC 名称预测等任务，并通过关注功能组等可解释的属性来实现这一点。最后，卡拉狄加可以用自然语言注释蛋白质序列，包括预测功能关键字。

《卡拉狄加》用于帮助撰写本文，包括推荐缺失的引文、引言和相关工作中讨论的主题、推荐进一步的工作以及帮助撰写摘要和结论。

2相关工作

大型语言模型（大语言模型）

近年来，大语言模型在NLP任务上取得了突破性的表现。模型在大型通用语料库上进行自我监督训练，并且在数百项任务上表现良好（Brown 等人，2020；Rae 等人，2021；Hoffmann 等人，2022；Black 等人，2022；Zhang 等人，2022；乔杜里等人，2022）。这包括科学知识任务，例如 MMLU (Hendrycks 等人, 2020)。他们有能力通过少样本学习来进行情境学习（Brown 等人，2020）。能力集随着规模的扩大而增加，最近的工作强调了更大范围内的推理能力和适当的提示策略（Wei等人，2022；Chowdhery等人，2022；Kojima等人，2022；Lewkowycz等人，2022）。

自我监督的缺点之一是转向未经整理的数据。模型可能会反映语料库中的错误信息、刻板印象和偏见（Sheng 等人，2019；Kurita 等人，2019；Dev 等人，2019；Blodgett 等人，2020；Sheng 等人，2021）。这对于重视真理的科学任务来说是不可取的。未经整理的数据还意味着更多的 Token 对于目标用例来说转移价值有限；浪费计算预算。例如，PaLM 语料库中有 50% 是社交媒体对话，这可能限制了向科学任务的转移（Chowdhery 等人，2022）。科学文本的属性也不同于一般文本 - 例如科学术语和数学 - 这意味着通用语料库和标记器可能效率低下。我们探讨了数据集选择的规范方法是否可以与这项工作中的大型模型范例一起使用。

科学语言模型

SciBERT、BioLM 等作品已经展示了精心策划的科学语料库的好处（Beltagy 等人，2019；Lewis 等人，2020a；Gu 等人，2020；Lo 等人，2019b；Gu 等人， 2020; Shin 等人, 2020; Hong 等人, 2022)。数据集和模型的规模和范围通常都很小，远小于通用模型的语料库²²2较大的语料库 S2ORC 拥有 $<20$ 10 亿个 Token ，而 GPT-3 和 PaLM 的语料库则拥有 $\geq 300$ 10 亿个 Token Token 。 ScholarBERT 拥有非常大的语料库，包含 2000 亿个 Token ，但模型容量很小，只有 770M。. 除了科学文本之外，蛋白质序列和 SMILES 的 Transformers 也显示出学习自然表征的潜力（Rives 等人，2021；Honda 等人，2019；Irwin 等人，2021；Nijkamp 等人，2022；Lin 等人，2022b ）。然而，像 SMILES 这样的序列在表示化学结构方面具有描述性限制。我们在这项工作中探讨了大型多模态科学语料库是否可以帮助表征学习，其中序列在信号密集的环境中与足迹和文本一起出现。

缩放法则

“缩放定律”的想法由 Kaplan 等人 (2020) 提出，他证明了损失随着模型大小、数据集大小和训练计算量呈幂律缩放的证据。重点是上游的困惑，Tay 等人 (2022a) 的研究表明，这并不总是与下游绩效相关。 Hoffmann 等人 (2022) 提出了考虑最佳数据量的新分析，并表明现有语言模型训练不足：“Chinchilla 缩放法则”。这项工作没有考虑新的与重复的标记。在这项工作中，我们表明我们可以通过重复标记的训练来提高上游和下游性能。

作为知识库的语言模型

在权重中存储信息更不可靠，因为模型可能会将信息混合在一起，幻觉，但它更“灵活”，因为它可以通过表示空间关联信息，关联. 尽管存在幻觉风险，但有证据表明大型语言模型可以充当具有足够容量的隐性知识库（Petroni等人，2019）。它们在没有外部检索机制的情况下，在常识知识（TriviaQA）和专业知识（MMLU）等知识密集型任务上表现良好（Brown等人，2020；Hendrycks等人，2020）。

如何更新网络知识的问题仍然是一个活跃的研究问题（Scialom等人，2022；Mitchell等人，2022）。同样，如何提高发电的可靠性也是一个活跃的问题（高等人，2022）。尽管存在这些限制，随着经验的增加，今天的大型模型将变得更便宜（Hirschmann，1964），因此随着训练和再训练成本的下降，越来越多的科学知识将进入重量记忆。在这项工作中，我们进行了探索，以调查卡拉狄加的知识深度，并表明吸收科学知识的能力随着规模的扩大而平稳提高。

检索增强模型

检索增强模型旨在减轻权重记忆的缺点。此类模型的示例包括 RAG、RETRO 和 Atlas (Lewis 等人, 2020b; Borgeaud 等人, 2021; Izacard 等人, 2022)。这些模型的优点是需要较少的容量，但缺点是需要支持检索基础设施。由于知识通常是细粒度的，例如特定蛋白质的序列或特定系外行星的特征，即使对于更大的模型，将来也可能需要检索。在这项工作中，我们关注的是仅使用模型权重可以走多远，但我们注意到使用检索增强来进行该主题的未来研究的有力案例。

3数据集

[Uncaptioned image] — 表格1：标记自然。卡拉狄加训练代表科学现象的文本序列。

Total dataset size = 106 billion tokens
Data source	Documents	Tokens	Token %
Papers	48 million	88 billion	83.0%
Code	2 million	7 billion	6.9%
Reference Material	8 million	7 billion	6.5%
Knowledge Bases	2 million	2 billion	2.0%
Filtered CommonCrawl	0.9 million	1 billion	1.0%
Prompts	1.3 million	0.4 billion	0.3%
Other	0.02 million	0.2 billion	0.2%

表2：卡拉狄加语料库。这些来源的完整细目包含在附录中。

“自然写在我们眼前的那本伟大的书中——我指的是宇宙——但如果我们不首先学习语言并掌握它所写的符号，我们就无法理解它。”

伽利略·伽利莱，试金者

可以通过底层语言来理解自然的想法有着悠久的历史（Galilei，1623；Wigner，1959；Wheeler，1990）。近年来，深度学习被用来表示自然，例如蛋白质和分子（Jumper等人，2021；Ross等人，2021）。氨基酸是书写蛋白质结构语言的字母表，而原子和键是分子语言。在更高层面上，我们通过自然语言来组织知识，很多作品都接受了科学文本的训练（Beltagy等人，2019；Lewis等人，2020a；Gu等人，2020；Lo等人，2019b）. 借助卡拉狄加，我们在大型科学语料库上训练单个神经网络来学习不同的科学语言。

我们的语料库由来自论文、参考资料、百科全书和其他科学来源的 $106$ 十亿个 Token 组成。我们将自然语言源（例如论文和教科书）与自然序列（例如蛋白质序列和化学式）结合起来。我们处理LaTeX，我们可以捕获它，并且还包括捕获计算科学的学术代码。我们在表 1 和 2 中突出显示语料库详细信息。完整的详细信息，包括数据集组件和过滤逻辑，包含在附录中。

值得注意的是，与其他更大且未经整理的大语言模型语料库相比，该数据集较小且经过整理。这是这项工作的一个关键问题：我们能否基于精心策划的规范范式制作一个有效的大语言模型？如果属实，我们可以通过清楚地了解进入语料库的内容来设计更有针对性的大语言模型，类似于具有规范标准的专家系统（Jackson，1990）。

3.1 标记化

图1：多模态数据。蛋白质序列与 UniProt 的注释、文本和引文一起出现在文档上下文中。为了清晰起见，对文档的全部内容进行了删减。

鉴于存在不同的模式，标记化是数据集设计的重要组成部分。例如，蛋白质序列是根据氨基酸残基编写的，其中基于字符的标记化是合适的。为了实现专用标记化的目标，我们针对不同的模式使用专用标记：

1.

引文：我们用特殊的参考标记[START_REF]和[END_REF]包装引文。
2.

分步推理：我们用工作记忆词符 <工作>包装分步推理，模仿内部工作记忆语境。
3.

数学：对于数学内容，无论有没有 LaTeX，我们都将 ASCII 操作拆分为单个字符。括号被视为数字。其余操作允许不分割的重复。操作符为!"#$%&'*+,-./:;<=>?\^_'|，括号为()[]{} 。
4.

数字：我们将数字分成单独的标记。例如 737612.62 -> 7,3,7,6,1,2,.,6,2。
5.

SMILES 公式：我们用 [START_SMILES] 和 [END_SMILES] 包装序列并应用基于字符的标记化。同样，我们使用 [START_I_SMILES] 和 [END_I_SMILES] 来表示异构 SMILES。例如，C(C(=O)O)N $\rightarrow$ C,(,C,(,=,O,),O,),N.
6.

氨基酸序列：我们用 [START_AMINO] 和 [END_AMINO] 包装序列并应用基于字符的标记化，将每个氨基酸字符视为一个单词符。例如，MIRLGAPQTL -> M、I、R、L、G、A、P、Q、T、L。
7.

DNA 序列：我们还应用基于字符的标记化，将每个核苷酸碱基视为词符，其中起始标记为 [START_DNA] 和 [END_DNA] 。例如，CGGTACCCTC -> C、G、G、T、A、C、C、C、T、C。

我们在下面介绍了一些在文献中没有明显相似之处的专门词符方法，特别是工作记忆和引文标记。

3.1.1 Working Memory 词符，<工作

基于 Transformer 的架构缺乏明确的工作记忆能力，这意味着单前向传递的功效有限。对于需要多个计算步骤的任务来说，这是有问题的。当前的解决方法是使用 Transformer 的输出上下文作为外部工作内存进行读取和写入。这可以在最近关于思想链提示的研究中看到（Wei 等人，2022；Suzgun 等人，2022）。从某种意义上说，这是直观的，因为人类还可以通过便签本来增强有限的工作记忆。从另一种意义上说，我们希望模型能够像人类一样在内部完善其表示；例如心算。

Refer to caption — 图2：给定一个类似“43、29、51、13 的平均值是多少？”的任务。人类可以使用内部或外部工作记忆。在实践中，他们会共生地使用两者；这意味着以文本形式写下的锻炼通常“缺少”内部执行的一些步骤。

思维链有两个局限性。首先，它依靠提示发现来找到引发稳健的逐步推理的提示；即最大限度地减少单次前传中过多操作所造成的错误。这不仅需要找到适用于所有情况的强大提示，而且通常还依赖于占用上下文空间的少量样本示例。更糟糕的是，互联网上的许多分步推理都错过了人类使用内部记忆执行的中间步骤。人类不会写下他们执行的每一步，因为这会导致冗长乏味的答案。他们写下推理的主要步骤，并通过内部工作记忆执行较低级别的步骤。这意味着书面文本中存在“丢失数据”，即在书面步骤之间存在未明确说明的内部存储器步骤。

其次，思想链提示使用神经网络来执行可能不是最适合执行的任务；例如算术。先前的研究表明，乘法等任务的准确性与术语频率成正比（Razeghi 等人，2022）。鉴于经典计算机专门用于算术等任务，一种策略是将这些任务从神经网络卸载到外部模块。例如，之前的工作已经研究了外部工具增强的可能性，例如计算器（Thoppilan等人，2022）。然而，这需要一种策略来确定神经网络应该在哪里卸载；当与发现的零样本提示结合使用时，它可能并不简单，特别是在没有明确书面说明较低级别计算步骤的情况下。

我们的解决方案是一个工作记忆词符，我们称之为 <work>。我们构建了一些提示数据集（见表 3），这些数据集将逐步推理封装在 <work> </work> 中。其中一些数据集是通过程序生成的（OneSmallStep），方法是创建一个问题模板并对变量进行采样；另一些数据集则是在线获取的（Workout、Khan Problems），还有一些数据集则使用了现有的数据集，并将其 Transformer 到基于 <work> 的环境中（GSM8k 训练）。当执行人类无法在内部完成的计算时，我们通过编写和执行 Python 脚本来卸载。图3显示了一个示例。重要的是，我们不必打开它，并且模型还可以预测运行程序的输出。在我们的实验中，我们没有发现需要打开Python卸载，并将这方面的工作留给以后的工作。

图3：模型-机器共生。 We show an example answer with the <work> working memory token. 它执行重新排列方程的精确步骤，当它达到无法在前向传播中可靠解决的计算时，它会编写一个程序，然后将其卸载到经典计算机上。

Data source	Split	Prompts	Tokens
GSM8k (Cobbe et al., 2021)	train	7,473	3,518,467
OneSmallStep	n/a	9,314	3,392,252
Khan Problems (Hendrycks et al., 2021)	n/a	3,835	1,502,644
Workout	n/a	921	470,921
Total		21,543	9 million

表3：推理数据集为了训练模型使用<作品>，我们在预训练中包含了几个数据集，这些数据集结合了这一词符。完整详细信息包含在附录中。

从长远来看，可能需要改变架构来支持自适应计算，因此机器可以在工作上拥有内部工作内存，例如自适应计算时间和 PonderNet （Graves，2016；Banino 等人，2021）。在本文中，我们探讨了<工作>外部工作记忆方法，以此作为通向下一步的桥梁。值得注意的是，我们的<工作>提示数据集并不大，也不多样，因此采用这种方法可能会有更大的收获。

3.1.2引文词符

学术文本的一个显着特征是引用。为了表示文本中的隐式引用图，我们使用全局标识符和表示引用时间的特殊标记 [START_REF] 和 [END_REF] 来处理引用。图 4 显示了论文中经过引文处理的文本的示例。

图4：引文处理文本。来自 Attention Is All You Need (Vaswani 等人，2017) 的引文处理文本示例。对于标题处理的引文，标题可以与先前的上下文相关联。

我们考虑了两种类型的引文标识符：(a) 论文标题和 (b) 字母数字 ID。根据消融，我们发现基于标题的标识符比 ID 具有更高的引文预测准确性。然而，我们还发现，鉴于标识符基于文本的性质，论文标题在较低比例下更容易出现幻觉错误。我们考虑本文的标题处理，但我们注意到两种方法之间的权衡。这些消融的实验包含在附录中。

3.2及时预训练

我们在一个重要方向上偏离了现有的语言模型研究，即我们决定在预训练中与通用语料库中加入提示。这是由一些观察结果推动的。

首先，现有的工作已经表明了训练词符对表现的重要性。 Chinchilla 论文在考虑 Token 数量的情况下得出了缩放“法则”，即 1.4 万亿 Token 的 700 亿模型（Hoffmann 等人，2022）。他们在 MMLU 上获得了最先进的性能，击败了 Gopher (Rae 等人，2021) 等更大的模型。

另外，FLAN 和 T0 等研究表明，及时调整可以提高下游性能（Wei 等人，2021；Sanh 等人，2021；Chung 等人，2022）。他们的策略包括将任务转换为文本提示，在任务的呈现方式上使用提示多样性，然后对这些提示数据集进行微调。对于 FLAN 和 T0，这种方法提高了性能，在许多任务上击败了 GPT-3 等更大的模型。

此外还有 UnifiedQA 方法（Khashabi 等人，2020）。在这种方法中，T5 模型在问答数据集上进行了微调，并被证明可以提高域外问答数据集的性能（Raffel 等人，2020）。该模型在 MMLU 上的性能优于 GPT-3，模型大 16 倍。

上述第一组研究重点关注总训练 Token 作为提高性能的一种方式；即它是词符不可知论。第二个研究流集中于任务上下文标记作为提高性能的一种方式；即它是词符选择性。由于微调的较小模型在 MMLU 等任务上击败了较大的少样本模型，这表明世界知识可能存在于较小的模型中，但考虑到一般语料库中任务上下文标记的相对数量，任务上下文知识可能很差。

在本文中，我们选择通过更多任务提示来增强预训练数据，以提高较低规模的性能。如果它消除了对更多数据规模的需要，例如，这是有利的。 > $1$ 万亿个语料库，或者更多的模型规模。我们训练的最大 120B 模型在单个 NVIDIA A100 节点上运行。此外，考虑到微调需要专业知识，让模型开箱即用地完成问答和总结等常见任务对于模型的用户来说更有用。最后，通过在一般数据旁边包含提示，我们最大限度地提高了模型的通用性，同时提高了某些感兴趣任务的性能。

对于大型语言模型来说，与这种方法最接近的模拟是 ExT5 （Aribandi 等人，2021）。我们采用类似的方法，获取许多机器学习训练数据集，将它们转换为具有即时多样性的文本格式，然后将它们与通用语料库一起包含在我们的预训练集中。表4给出了提示类型的总结；附录中介绍了所使用的数据集和提示的完整详细信息。

Task	Prompts	Tokens
Chemical Properties	782,599	275 million
Multiple-Choice QA	256,886	31 million
Extractive QA	30,935	13 million
Summarization	6,339	11 million
Entity Extraction	156,007	9 million
Reasoning	21,543	9 million
Dialog	18,930	5 million
Binary QA	36,334	4 million
Other	3,559	1 million
Total	783,599	358 million

表 4：预训练提示。我们在预训练中加入零样本提示以增强任务信号。

由于提示包含，区分域内性能（训练数据集包含在预训练中）和域外性能（训练数据集不包含在预训练中）非常重要。我们在本文的结果部分清楚地标记了这些结果。重要的是，我们不主张将即时预训练作为指令调整的替代方法。事实上，卡拉狄加上的指令调整可能是有用的后续工作，因为它有可能提高一些感兴趣的任务的性能。

4方法

4.1架构

Gactica 在仅解码器设置中使用 Transformer 架构（Vaswani 等人，2017），并进行了以下修改：

•

GeLU 激活 - 我们对所有模型大小使用 GeLU 激活（Hendrycks 和 Gimpel，2016）。
•

上下文窗口 - 我们对所有模型尺寸使用 2048 长度的上下文窗口。
•

无偏差 - 在PaLM之后，我们不在任何密集内核或层规范中使用偏差（Chowdhery等人，2022）。
•

学习位置嵌入 - 我们为模型使用学习位置嵌入。我们在较小的尺度上对 ALiBi 进行了实验，但没有观察到较大的增益，因此我们没有使用它（Press 等人，2021）。
•

词汇表 - 我们使用 BPE （Sennrich 等人，2015）构建了 50k 个标记的词汇表。词汇表是从训练数据中随机选择 2% 的子集生成的。

4.2模型

表5中概述了我们训练的不同模型大小以及训练超参数。

Model	$n_{params}$	$n_{layers}$	$d_{model}$	$n_{heads}$	$d_{heads}$	Batch Size	Max LR	Warmup
GAL 125M	125M	12	768	12	64	0.5M	$6\times 10^{-4}$	375M
GAL 1.3B	1.3B	24	2,048	32	64	1.0M	$2\times 10^{-4}$	375M
GAL 6.7B	6.7B	32	4,096	32	128	2.0M	$1.2\times 10^{-4}$	375M
GAL 30B	30.0B	48	7,168	56	128	2.0M	$1\times 10^{-4}$	375M
GAL 120B	120.0B	96	10,240	80	128	2.0M	$0.7\times 10^{-5}$	1.125B

表 5：训练模型的详细信息

我们使用 AdamW 进行训练，其中 $\beta_{1}=0.9$ 、 $\beta_{2}=0.95$ 和权重衰减为 $0.1$ （Loshchilov 和 Hutter，2017）。我们将梯度的全局范数剪裁为 1.0，并使用线性衰减将学习率降至其值的 10%。我们使用 $p=0.1$ 的dropout和attention dropout。我们不使用嵌入dropout。我们发现，在训练的早期阶段，较长的预热对于最大的模型很重要，可以防止不良初始化的影响，这会对优化器方差状态产生长期记忆影响并减慢学习速度。这可能特定于我们的模型和训练设置，目前尚不清楚该建议是否具有普遍性。

4.3 图书馆和基础设施

我们使用metaseq库³³3https://github.com/facebookresearch/metaseq/ 用于训练模型，由 Meta AI 的 NextSys 团队构建。

为了训练最大的 120B 模型，我们使用 128 个 NVIDIA A100 80GB 节点。为了进行推理，卡拉狄加 120B 需要单个 A100 节点。我们选择最大模型大小来遵守下游可访问性的限制，并且我们将在未来几个月内努力提高研究界的可访问性。

5结果

5.1 重复的 Token 被认为是无害的

我们训练了 4500 亿个 Token 的模型，或者说大约 4.25 个时期。我们发现，通过语料库的多次重复，验证集、域内和域外基准的性能持续提高。

首先，从图6训练中，验证损失在四个时期内继续下降。最大的 120B 模型仅在第五个 epoch 开始时才开始过拟合。这是出乎意料的，因为现有研究表明重复的标记可能会损害性能（Hernandez 等人，2022）。我们还发现 30B 和 120B 表现出验证损失稳定（或上升）随后下降的划时代双下降效应。这种效果随着每个时期的发展而变得更强，并且在上面的 120B 模型接近结束时最为明显。

为了进一步调查，我们检查了验证损失的每个来源的细分，以查看损失行为是否存在异质性。我们在背面的图 23 中绘制了 30B 模型的示例曲线。我们没有看到损失异质性的迹象：所有来源的损失都会下降。 120B 表现出所有来源验证损失下降的相同相对趋势，直到第五纪元开始，所有来源都出现峰值（参见附录）。

下一个要回答的问题是这种趋势是否会扩展到下游性能和域外泛化。为此，我们使用 BIG-bench 子集的 57 个任务子集，这是一个主要包含非科学任务和未包含在预训练中的提示类型的通用语料库（Srivastava 等人，2022）. 我们将结果绘制在图 8 中。我们没有看到过度拟合的迹象，这表明使用重复 Token 可以提高下游性能和上游性能。

我们怀疑可能有两个因素在起作用，一个是质量因素，语料库的策划性质使得每个词符能够提取更多的价值，另一个是模态因素，科学数据的性质使得每个词符能够被提取出更多的价值。因果关系中缺失的一步是导致任一因素减少过度拟合的具体原因，我们将这个问题留待进一步研究。我们注意到，当前大语言模型项目的“ $\text{tokens}\rightarrow\infty$ ”焦点可能过分强调了语料库质量过滤的重要性。

在以下部分中，我们将评估卡拉狄加的科学能力。具体来说，我们专注于构建一个可以存储、组合和推理科学知识的大语言模型的高层设计目标——因为这些是构建新的科学界面所需要的。

5.2知识探究

首先，我们检查卡拉狄加吸收科学知识的情况。我们建立了几个知识探测基准，以 Petroni 等人 (2019) 的 LAMA 方法为基础。这些是模型开发过程中的关键指标，用于识别语料库内的知识差距，并告知如何迭代语料库。它们还提供了有关卡拉狄加与通用语言模型的相对知识优势的见解，我们在转向下游任务之前将在本节中介绍这些结果。

5.2.1 LaTeX 方程

我们构建了化学、物理、数学、统计学和经济学领域流行的 LaTeX 方程的数据集。记住方程对于测量很有用，因为它对于许多下游任务是必要的；例如，回忆一个方程式作为问题答案的一部分。除非明确说明，卡拉狄加结果报告为零样本。我们总共测试了 434 个方程来进行知识探索。

我们提示方程名称并生成 LaTeX。图9显示了一个示例。

图9： LaTeX 方程探针。我们提示输入方程式的名称并评估生成的 LaTeX 是否正确。我们手动评估给出多个正确答案的可能性。

我们将结果总结在表6中。方程知识随着规模的扩大而平稳增长。《卡拉狄加》的性能优于在一般语料库上训练的大型语言模型，这表明了精选数据集的价值。

Model	Params (bn)	Chemistry	Maths	Physics	Stats	Econ	Overall
OPT	175	34.1%	4.5%	22.9%	1.0%	2.3%	8.9%
BLOOM	176	36.3%	36.1%	6.6%	14.1%	13.6%	21.4%
GPT-3 (`text-davinci-002`)	?	61.4%	65.4%	41.9%	25.3%	31.8%	49.0%
GAL 125M	0.1	0.0%	0.8%	0.0%	1.0%	0.0%	0.5%
GAL 1.3B	1.3	31.8%	26.3%	23.8%	11.1%	4.6%	20.5%
GAL 6.7B	6.7	43.2%	59.4%	36.2%	29.3%	27.3%	41.7%
GAL 30B	30	63.6%	74.4%	35.2%	40.4%	34.1%	51.5%
GAL 120B	120	79.6%	83.5%	72.4%	52.5%	36.4%	68.2%

表 6： LaTeX 方程的结果。结果通过零样本进行评估。

5.2.2 域探测

我们还设置了领域探针来跟踪某些领域的专业知识。我们详细介绍如下：

•

AminoProbe：20种常见氨基酸的名称、结构和性质的数据集。
•

BioLAMA：生物医学事实知识三元组的数据集。
•

化学反应：化学反应的数据集。
•

星系团：星系团及其星座分类的数据集。
•

矿物组：矿物及其矿物组分类的数据集。

在每种情况下，我们都会构建一个提示来测试知识。例如，对于化学反应，我们要求卡拉狄加预测化学方程式 LaTeX 中的反应产物。我们在描述中屏蔽了产品，因此模型仅根据反应物进行推断。图10显示了一个示例。

图10：化学反应。我们根据描述和反应物进行提示，并评估生成的产物是否正确。

我们在表 7 中报告了这些知识探测的结果。

Model	Params (bn)	Amino	BioLAMA	Reactions	Clusters	Minerals
OPT	175	12.0%	7.1%	12.7%	21.7%	1.6%
BLOOM	176	14.0%	9.7%	22.4%	15.0%	10.3%
GPT-3 (`text-davinci-002`)	?	14.0%	8.4%	35.1%	20.8%	18.3%
GAL 125M	0.1	12.0%	3.1%	0.3%	6.7%	0.0%
GAL 1.3B	1.3	16.0%	7.2%	14.4%	14.2%	10.3%
GAL 6.7B	6.7	17.0%	7.9%	26.4%	17.5%	8.7%
GAL 30B	30	21.0%	6.9%	36.5%	20.0%	17.5%
GAL 120B	120	21.0%	8.0%	43.1%	24.2%	29.4%

表 7：域探测结果。结果通过零样本进行评估。

我们还观察到这些知识探针中的稳定缩放行为，但 BioLAMA 除外，我们怀疑它反映了所有大语言模型的零样本提示困难。值得注意的是，细粒度的事实知识，例如“ConstellationOf(GalaxyCluster)”类型查询似乎可以随着模型的大小平滑扩展。

5.2.3推理

现在我们来看看 <work> 词符的推理能力。我们首先评估 MMLU 数学基准，我们在表 8 （Hendrycks 等人，2020）中报告了这些基准。与更大的基本型号相比，"银河 "的性能更强，即使是较小的 30B "银河 "型号，使用 <work> 词符似乎也能比 "钦奇拉 "提高性能。

Mathematics MMLU
Model	Params (bn)	A.Algebra	Elem	HS	College	F. Logic	Average
BLOOM (5-shot)	176	25.0%	26.7%	27.0%	25.0%	26.2%	26.4%
OPT (5-shot)	175	21.0%	25.7%	24.4%	33.0%	29.4%	26.7%
Gopher (5-shot)	280	25.0%	33.6%	23.7%	37.0%	35.7%	30.6%
Chinchilla (5-shot)	70	31.0%	41.5%	31.9%	32.0%	33.3%	35.7%
GAL 1.3B	1.3	28.0%	27.2%	26.7%	30.0%	24.6%	27.1%
GAL 6.7B	6.7	28.0%	28.9%	26.7%	36.0%	31.0%	29.2%
GAL 30B	30	30.0%	30.2%	26.3%	36.0%	31.7%	29.9%
GAL 120B	120	33.0%	38.1%	32.6%	43.0%	32.5%	35.8%
GAL 1.3B `<work>`	1.3	22.0%	24.6%	18.9%	25.0%	31.0%	24.6%
GAL 6.7B `<work>`	6.7	33.3%	30.7%	25.2%	26.0%	33.3%	28.0%
GAL 30B `<work>`	30	33.0%	41.5%	33.3%	39.0%	37.3%	37.1%
GAL 120B `<work>`	120	27.0%	54.2%	37.0%	44.0%	40.5%	41.3%

表8：数学 MMLU 成绩。《卡拉狄加》的评估没有少量样本。 With the <work> token we see large gains in performance. 结果基于 MMLU 测试。

我们还对 MATH 数据集进行了评估，以进一步探讨 Gactica （Hendrycks 等人，2021）的推理能力。我们直接将 <work> 词符提示与 Minerva 5 连击思维链提示 mCoT 进行比较，以获得可比性。我们在表 9 中报告结果。

MATH Results
Model	Alg	CProb	Geom	I.Alg	N.Theory	Prealg	Precalc	Average
Base Models
GPT-3 175B (8-shot)	6.0%	4.7%	3.1%	4.4%	4.4%	7.7%	4.0%	5.2%
PaLM 540B (5-shot) `mCoT`	9.7%	8.4%	7.3%	3.5%	6.0%	19.2%	4.4%	8.8%
GAL 30B `<work>`	15.8%	6.3%	5.8%	4.9%	2.4%	19.4%	8.2%	11.4%
GAL 30B (5-shot) `mCoT`	17.9%	6.8%	7.9%	7.0%	5.7%	17.9%	7.9%	12.7%
GAL 120B `<work>`	23.1%	10.1%	9.8%	8.6%	6.5%	23.8%	11.7%	16.6%
GAL 120B (5-shot) `mCoT`	29.0%	13.9%	12.3%	9.6%	11.7%	27.2%	12.8%	20.4%
Fine-tuned LaTeX Models
Minerva 540B (5-shot) `mCoT`	51.3%	28.0%	26.8%	13.7%	21.2%	55.0%	18.0%	33.6%

表 9：数学结果。通过思维链和 <work> 词符提示，Galactica 的性能超过了 PaLM，但容量却减少了 18 倍。

我们看到，在思维链和<工作>提示下，Galactica 的表现明显优于基本 PaLM 模型。 Galoida 30B 在两个提示上都优于 PaLM 540B：型号小 18 倍。这表明卡拉狄加可能是针对数学任务进行微调的更好的基础模型。

我们报告 Minerva 结果的完整性，它是专门针对 LaTeX 进行微调的 540B PaLM。密涅瓦的性能优于基础卡拉狄加，但性能差异并不均匀；这指向不同的数学数据偏差。为了与 Minerva 进行直接比较，该模型可以免费提供给那些想要将《卡拉狄加》微调为 LaTeX 的人，特别是作为后续工作。

5.3 下游科学 NLP

我们现在评估下游科学任务，看看卡拉狄加在不同的任务环境中能够如何很好地构建其知识。我们专注于知识密集型科学任务，并在表10中报告了完整结果。为此，我们使用 MMLU 基准以及其他一些流行的科学 QA 基准。 We include the MMLU results earlier without <work> to test for knowledge association specifically. 完整的 MMLU 结果，包括社会科学和其他领域，在附录中报告。我们还对这些基准进行数据泄漏分析，以提高信心；结果见附录。

从表10可以看出，卡拉狄加可以将知识组合到问答任务中，表现较强；显着优于其他开放语言模型，并且在大多数任务中优于更大的模型（Gopher 280B）。与龙猫的表现差异较大，龙猫似乎在某些任务中表现更强：特别是高中科目和数学程度较低、记忆强度较高的任务。相比之下，卡拉狄加在数学和研究生水平的任务中往往表现更好。

我们的工作假设是，卡拉狄加语料库偏向研究生科学知识，因为它主要由论文组成，这解释了高中科目表现的滞后。虽然我们确实通过百科全书、教科书和经过过滤的 CommonCrawl 获取了一些高中水平的内容，但这相当于少量的 Token （几十亿）。我们将如何以有组织的方式捕获更多基础科学知识的问题留给未来的工作。

在剩下的任务中，我们在撰写本文时通过微调模型取得了最先进的结果。在 PubMedQA 上，我们取得了 77.6% 的分数，优于最先进的 72.2% （Yasunaga 等人，2022）。在 MedMCQA 开发中，我们取得了 52.9% 的分数，而最先进的分数为 41.0% (Gu 等人，2020)。对于 BioASQ 和 MedQA-USMLE，性能接近微调模型的最先进性能（94.8% 和 44.6%）（Yasunaga 等人，2022）。

Dataset	Domain	GAL	OPT	BLOOM	GPT-3	Gopher	Chinchilla
Abstract Algebra	out-of-domain	33.3%	21.0%	25.0%	-	25.0%	31.0%
ARC Challenge	in-domain	67.9%	31.1%	32.9%	51.4%	-	-
ARC Easy	in-domain	83.8%	37.4%	40.7%	68.8%	-	-
Astronomy	out-of-domain	65.1%	23.0%	25.7%	-	65.8%	73.0%
BioASQ	in-domain	94.3%	81.4%	91.4%	-	-	-
Biology (College)	out-of-domain	68.8%	30.6%	28.5%	-	70.8%	79.9%
Biology (High-School)	out-of-domain	69.4%	27.7%	29.4%	-	71.3%	80.3%
Chemistry (College)	out-of-domain	46.0%	30.0%	19.0%	-	45.0%	51.0%
Chemistry (High-School)	out-of-domain	47.8%	21.7%	23.2%	-	47.8%	58.1%
Comp. Science (College)	out-of-domain	49.0%	17.0%	6.0%	-	49.0%	51.0%
Comp. Science (High-School)	out-of-domain	70.0%	30.0%	25.0%	-	54.0%	58.0%
Econometrics	out-of-domain	42.1%	21.0%	23.7%	-	43.0%	38.6%
Electrical Engineering	out-of-domain	62.8%	36.6%	32.4%	-	60.0%	62.1%
Elementary Mathematics	out-of-domain	38.1%	25.7%	27.6%	-	33.6%	41.5%
Formal Logic	out-of-domain	32.5%	29.4%	26.2%	-	35.7%	33.3%
Machine Learning	out-of-domain	38.4%	28.6%	25.0%	-	41.1%	41.1%
Mathematics (College)	out-of-domain	43.0%	33.0%	25.0%	-	37.0%	32.0%
Mathematics (High-School)	out-of-domain	32.6%	24.4%	27.0%	-	23.7%	31.9%
Medical Genetics	out-of-domain	70.0%	35.0%	36.0%	-	69.0%	69.0%
Physics (College)	out-of-domain	42.2%	21.6%	18.6%	-	34.3%	46.1%
Physics (High-School)	out-of-domain	33.8%	29.8%	25.2%	-	33.8%	36.4%
MedQA-USMLE	out-of-domain	44.4%	22.8%	23.3%	-	-	-
MedMCQA Dev	in-domain	52.9%	29.6%	32.5%	-	-	-
PubMedQA	in-domain	77.6%	70.2%	73.6%	-	-	-
Statistics (High-School)	out-of-domain	41.2%	43.5%	19.4%	-	50.0%	58.8%

表 10：问答结果。《卡拉狄加》的评估没有少量样本。除 ARC 结果上的 GPT-3 以及 PubMedQA 和 BioASQ 上的 OPT 和 BLOOM 的 0-shot 结果外，其他大语言模型均以 5-shot 进行评估。对于抽象代数和医学遗传学，我们以 30B 获得了最好的结果，因此我们报告这些分数；这些的 120B 分数分别为 27.0% 和 68.0%。其余结果为 120B。

5.4引文预测

在本节中，我们评估卡拉狄加在给定输入上下文的情况下预测引用的能力，这是对卡拉狄加组织科学文献能力的重要测试。我们发现分布近似的准确性和质量都随着规模的增加而提高。

5.4.1 引文准确性

我们构建了三个数据集来评估模型的引用能力：

•

PWC Citations：包含 644 对机器学习概念和介绍它们的论文的数据集。概念包括来自 Papers with Code⁴⁴4https://paperswithcode.com 的方法（例如 ResNet）和数据集（例如 ImageNet）。
•

扩展引用：包含 110 对非机器学习概念和介绍它们的论文的数据集。概念示例包括Kozac 序列和Breit-Wigner 分布。
•

Contextual Citations：包含来自 arXiv 验证集的 1,869 对引用和上下文的数据集。该数据集是通过对 1,000 个随机引用进行采样并收集其上下文来构建的。

对于 PWC Citations 和 Extended Citations 数据集，引文预测任务被定义为文本生成任务。该模型会收到类似“在本文中我们使用 ResNet 方法 [START_REF]”的提示，以便生成针对 ResNet 概念的预测。对于上下文引用，我们会在输入引用上下文后进行提示，其中上下文以[START_REF] 结尾。

我们将卡拉狄加与此任务中基于稀疏和密集检索的方法进行比较。

对于稀疏基线，我们使用 ElasticSearch 创建所有参考文献的索引，包括它们的标题、摘要和文本简短片段及其出现的上下文。然后，给定一个文本查询，我们检索按所有选定字段的匹配分数总和排序的顶级引用。

对于密集检索器基线，我们评估了两种不同的 Contriever 模型（Izacard 等人，2021）。第一个是Izacard等人(2021)发布的预训练模型。我们使用的第二个模型是在我们的语料库中的 1000 万个上下文/论文对的随机子集上进行微调的，经过训练可以在引用之前给定上下文检索正确的论文。密集检索的设置是：（1）每个参考文献都由模型使用其标题和摘要进行编码，（2）文本查询由同一模型编码，（3）返回与查询匹配的参考文献。使用 FAISS 索引（Johnson 等人，2019）进行检索。

结果见表11。

Model	Params (bn)	PWC Citations	Extended Citations	Contextual Citations
GAL 125M	0.1	7.0%	6.4%	7.1%
GAL 1.3B	1.3	18.5%	45.5%	15.9%
GAL 6.7B	6.7	32.0%	60.0%	23.0%
GAL 30B	30	44.7%	66.4%	31.5%
GAL 120B	120	51.9%	69.1%	36.6%
Sparse Retriever	n/a	30.9%	17.3%	5.3%
Dense Retriever (base)	n/a	16.4%	8.8%	1.6%
Dense Retriever (fine-tuned)	n/a	27.6%	11.8%	8.2%

表 11：引文预测准确性。不同模型大小在引文预测上的性能。

所有评估集的性能随着规模的扩大而平稳增长。在更大的范围内，随着上下文关联能力的提高，卡拉狄加的表现优于基于检索的方法。这是一个重要的结果，因为当前的文献导航方法使用这些现有的检索方法。随着语言模型能力的提高，我们怀疑它们将成为探索文献的有价值的新工具。

5.4.2 引文分布分析

现在我们来看看《卡拉狄加》对经验引用分布的建模效果如何。对于此分析，我们使用Contextual Citations数据集，其中通过将引文之前的上下文作为提示从论文中提取提示。图 12 的背面显示了模型预测的示例提示。

我们使用上下文引用数据来分析预测论文数和真实论文数之间的分布差异。这使我们能够评估模型对预测更受欢迎论文的偏差。具体来说，对于每个上下文都有一个基本事实和预测参考。我们计算每个参考文献在我们的语料库中出现的次数。然后，我们使用 Kolmogorov-Smirnov 距离（Massey，1951）比较真实参考和预测参考之间的参考计数分布。

不同模型大小的引用计数分布比较如图11所示。图11(a)显示了真实论文引用分布与预测论文引用分布之间的柯尔莫哥洛夫-斯米尔诺夫距离的减小。图11(b)显示了随着模型大小的增加，预测论文的论文数量分布如何更加接近真实情况。在较小的规模下，模型更容易预测更受欢迎的论文。随着模型规模的增大，这种预测热门论文的偏差就会减少。

图 12：引用提示。预测上下文中的引用的示例提示；来自Briol 等人 (2015)。

5.5一般功能

我们研究了卡拉狄加的科学能力。专业科学模型在科学任务上优于一般模型也许并不奇怪，但更令人惊讶的是它在一般 NLP 任务上优于一般模型。在本节中，我们将展示令人惊讶的证据，证明它确实可以做到这一点。

我们对表12（Srivastava 等人，2022）中的 57 个 BIG-bench 任务进行了评估。这些任务主要是非科学的，测试一般语言能力，例如时代错误、修辞手法和布尔隐喻。我们总是用 5 个镜头进行评估，并使用 BIG-Bench 的默认提示样式。重要的是，我们没有在预训练中包含这种提示样式；所以卡拉狄加和其他机型的评价是5连拍的。完整的详细信息和结果参见附录。我们在表 12 中总结了平均分数：

Model	Params (bn)	Accuracy	Accuracy
		weighted	unweighted
OPT 30B	30	39.6%	38.0%
BLOOM 176B	176	42.6%	42.2%
OPT 175B	175	43.4%	42.6%
GAL 30B	30	46.6%	42.7%
GAL 120B	120	48.7%	45.3%

表 12： BIG-bench 57 任务结果。在较小的规模上，卡拉狄加的表现优于一般的开放模型。

30B 和 120B 卡拉狄加型号均优于较大的 OPT 和 BLOOM 通用型号。这是一个令人惊讶的结果，因为我们设计卡拉狄加是为了权衡科学任务中的通用性和性能。

我们怀疑这一结果反映了《卡拉狄加》语料库的更高质量，因为它是经过精心策划的，而且主要是学术文本。以前的开放大语言模型工作可能过度关注规模目标而忽视数据过滤。另一个含义是，对 Chinchilla Token 的关注 $\rightarrow\infty$ 需要辅以强大的数据质量程序（Hoffmann 等人，2022）。在本文中，我们采取了相反的方法，重点关注高质量的 Token 和重复的训练周期。然而，龙猫的见解是成立的：还有更多的科学文本我们在这项工作中没有利用。

5.6化学理解

我们现在转向卡拉狄加与不同科学模式交互的能力。我们首先看看卡拉狄加的化学能力。化学性质表现出复杂的相关性，这意味着化学空间非常大。通过语言模型更好地组织化学信息可以帮助化学设计和发现。我们将在本节中探讨卡拉狄加如何为这些任务提供新的界面。

对于这项工作，我们在预训练中仅包含 PubChem Compound 中可用化合物的一小部分。具体来说，我们选取总化合物( $110$ 百万）的随机子集( $2$ 百万）。这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。这是我们可以在未来的工作中放松的限制，从而实现更大的语料库。在这里，我们重点关注第一步，研究单个模型是否可以在多模态设置中有效学习。

我们发现语言模型可以以自我监督的方式学习化学任务，例如 IUPAC 命名，此外，我们可以将药物发现任务作为自然语言提示并获得合理的结果。

5.6.1 IUPAC名称预测

SMILES 是一种线符号，将化学结构表示为字符序列（Weininger，1988）。在卡拉狄加语料库中，SMILES 公式与文档中的信息一起出现，例如 IUPAC 名称、分子量和 XLogP。在自监督学习的背景下，这意味着语言模型正在执行隐式多任务学习：该模型正在预测下一个 SMILES 词符，但也可以使用 SMILES 来预测文档中的其他实体。

作为初始测试，我们设置了一个 IUPAC 名称预测任务，该任务是根据给定 SMILES 公式输入的 IUPAC 命名法来命名化合物。 IUPAC 命名法是一种命名有机化合物的方法，其规则集基于命名由单键连接的最长碳链（Favre 和 Powerll，）。有大量的规则，并且过程在算法上很复杂，这意味着很难自动化。因此，标准化学信息学工具包中缺少它。

STOUT 和 Struct2IUPAC 等之前的工作已经探索了使用 RNN 和 Transformer 来完成此任务的可能性（Rajan 等人，2021；Krasnov 等人，2021）。我们在本节中探讨卡拉狄加是否可以在自我监督的环境中将 SMILES 规范翻译为其 IUPAC 名称。我们设计了一个基于 PubChem 结构的提示，以 SMILES 作为唯一输入，并以输出来预测 IUPAC 名称。

为了进行评估，我们使用包含 17,052 种化合物的化合物验证集，并使用 SMILES 公式进行提示并预测 IUPAC 名称。为了计算准确性，我们使用 OPSIN 将生成的 IUPAC 名称转换为 SMILES，对其进行规范化并与规范化的 SMILES 目标（Lowe 等人，2011）进行比较。

结果如表13所示。

Model	Params (bn)	Accuracy	Invalid Names
GAL 125M	0.1	0.0%	32.8%
GAL 1.3B	1.3	2.5%	12.0%
GAL 6.7B	6.7	10.7%	12.3%
GAL 30B	30	15.4%	9.7%
GAL 120B	120	39.2%	9.2%

表 13： IUPAC 命名结果。性能随着规模的扩大而平稳提高。

准确度随着规模的增加而平稳增加。鉴于我们将语料库限制为 200 万个分子，通过对更多分子进行训练或微调，可能可以实现更好的性能。该模型可供那些想要执行后续工作的人免费使用。

更直接的问题是实际上正在学习什么：卡拉狄加是从基本分子结构推断名称吗？为了回答这个问题，我们将预测每个阶段的平均原子注意力可视化，如图13所示。令人鼓舞的是，结果可以根据基本化学来解释，并且卡拉狄加在预测名称时会考虑到正确的组，例如对于“氨基”，它主要涉及 $-\ce{NH_{2}}$ 取代基。

5.6.2分子网

我们现在探索是否可以以自然语言格式提出传统的药物发现任务，结合所涉及的不同模式。人类通过自然语言组织知识，因此学习自然语言和 SMILES 等科学模式之间的接口可能成为探索化学空间的新工具。我们使用 MoleculeNet 分类基准来回答这个问题，表 14 (Wu 等人, 2017) 总结了这些基准。

Category	Dataset	Type	Other modalities
Biophysics	HIV	Classification	n/a
Biophysics	BACE C	Classification	n/a
Physiology	BBBP	Classification	n/a
	Tox21	Classification	protein sequences
	SIDER	Classification	n/a
	ClinTox	Classification	n/a

表 14：用于评估的 MoleculeNet 数据集。我们将训练集转换为文本格式并包含在预训练中。我们使用 DeepChem 库建议的拆分（Ramsundar 等人，2019）进行评估。

为了进行评估，我们通过转换为文本格式将训练集包含在预训练中。我们使用即时随机化（改变问题的提出方式）。例如，对于 BBBP，训练提示符的形式如下图 14 所示。这些示例与训练中的其他语料库一起出现，每个示例的出现次数仅超过 $4$ 次。由于预训练中存在其他数据，这与直接微调或监督无法相比，因此它可能被视为弱监督的一种形式。

图 14： BBBP提示。我们包括 SMILES 并用自然语言提出分类问题。

对于某些 MoleculeNet 数据集，隐含存在其他模式。例如，在 Tox21 数据集中，生物测定涉及特定受体，例如雄激素受体 (AR)。作为一项实验，我们决定以文本格式构建任务，其中蛋白质序列和微笑作为提示的一部分。我们在图 15 中展示了 Tox21 的示例。

图 15： Tox21 提示。我们包括蛋白质序列和 SMILES 公式，并用自然语言提出分类问题。

我们确保将 SMILES 凯库勒化为与 PubChem 表示一致。为了进行评估，我们使用 DeepChem 库中推荐的分割（Ramsundar 等人，2019）。

我们在表 15 中列出了结果。性能随模型大小而变化。扩展速度比 QA 等任务慢，并且基础模型落后于具有显式 3D 信息和 10 倍以上分子的专业模型（Zhou 等人，2022）。我们怀疑弱监督设置对于这项任务来说更困难，并且需要微调和/或更多分子数据才能获得足够的任务信号。该模型可用于这方面的工作。

MoleculeNet Classification
Model	Modality	Molecules	BACE	BBBP	ClinTox	HIV	SIDER	Tox21	Av.
GAL 125M	SMILES	2M	0.561	0.393	0.518	0.702	0.559	0.543	0.581
GAL 1.3B	SMILES	2M	0.576	0.604	0.589	0.724	0.540	0.606	0.619
GAL 6.7B	SMILES	2M	0.584	0.535	0.784	0.722	0.559	0.639	0.640
GAL 30B	SMILES	2M	0.727	0.596	0.822	0.759	0.613	0.685	0.687
GAL 120B	SMILES	2M	0.617	0.661	0.826	0.745	0.632	0.689	0.690
Uni-Mol	3D	20M	0.857	0.729	0.919	0.808	0.659	0.796	0.770

表 15： MoleculeNet 分类结果。结果通过 ROC-AUC 进行评分。

就我们的目的而言，对未来工作的影响是我们可以通过自然语言提示来学习药物发现任务。如果我们能够在信号密集的文档上下文（例如在线化学数据库）中自动学习这些关系，这可能会减少对监督数据集执行这些任务的依赖。

作为最后的检查，我们可以对卡拉狄加的跨层注意力头进行平均，并可视化模型在 SMILES 序列中的位置以进行预测（原子注意力）。我们在图 16 中展示了一些 Tox21 预测的示例。

5.7生物学理解

在本节中，我们将研究卡拉狄加与生物形态交互的能力。语言模型可能会在这些数据的自动组织中发挥作用，例如用功能信息注释新测序的蛋白质。我们在本节中探讨该接口的潜力。

对于来自 UniProt 的蛋白质序列，我们在预训练中包含一小部分可用序列。具体来说，我们采用经过审查的 Swiss-Prot 蛋白质；总数( $227$ 百万）的高质量子集( $0.5$ 百万）。这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。与分子数据一样，我们可以在未来的工作中放松这一限制，从而实现更大的语料库。在这里，我们重点关注第一步，研究单个模型是否可以在多模态设置中有效学习。

我们发现语言模型可以学习序列相似性的隐式测量，可用于功能性标注和描述等任务。

5.7.1 序列验证困惑

虽然卡拉狄加没有明确模拟蛋白质的 3D 结构，但特定构象所需的信息包含在线性氨基酸序列中，这反过来又决定了功能。第一步，我们通过评估蛋白质序列复杂性来测试上游性能。构建一个好的验证集很重要，而数据泄漏是该领域工作的一个问题。我们构建了四个坚持集，以获得对所学内容和概括内容的更多信心。

首先，我们对训练集中的序列进行BLAST，删除与51个CASP14目标序列具有序列同一性 $\geq 50\%$ 的所有序列。这些与 ESMFold (Lin 等人, 2022b) 中使用的测试序列相同。我们使用这种方法总共从训练集中删除了 167 个序列。我们将此称为保留集 CASPSimilarSeq。我们将 51 个 CASP14 目标序列称为 CASPSeq。

其次，我们进行了生物体层面的保留，并删除了 Paenungulata 生物进化枝中的所有序列，包括大象、象鼩、海牛和 aadvarks。这使我们能够测试卡拉狄加是否可以为它以前从未见过的生物体注释序列。我们使用这种方法总共从训练集中删除了 109 个序列。我们将此保留集称为PaenSeq。请注意，这不会强制执行任何序列相似性约束，并且训练集中可能存在非常相似的序列。

最后，我们进行随机测试分割，由 5456 个序列组成。没有应用序列同一性约束，因此记忆可能更重要，但它仍然提供了有关模型吸收的序列知识广度的信号。我们将此保留集称为 UniProtSeq。

我们评估表16中所有保留集的困惑度并在图17中绘制。对于三个验证集，我们观察到平滑的缩放，反映了与训练集中的序列具有高度序列相似性的潜力；例如，Paen 验证集的直向同源物。有趣的是，具有序列相似性训练限制的 CASP 集逐渐趋于平稳，这表明 550k 蛋白质的增益很快就饱和了。

Protein Sequence Validation Perplexity
Model	Param (bn)	CASPSeq	CASPSimSeq	PaenSeq	UniProtSeq
GAL 125M	0.1	20.62	19.18	16.35	19.05
GAL 1.3B	1.3	17.58	17.04	12.53	15.82
GAL 6.7B	6.7	17.29	16.35	7.76	11.58
GAL 30B	30	17.27	15.42	4.28	8.23
GAL 120B	120	17.26	12.77	3.14	5.54

表 16：蛋白质验证困惑。与训练集具有较高潜在序列相似性的验证集比限制集（CASP 验证集）具有更低的困惑度。

为了进一步研究，我们在 120B 模型训练期间对 CASPSeq 集进行验证困惑，并在下面的图 18 中绘制结果。

我们观察到验证困惑度不断下降，直到第四个纪元开始，此时模型对该特定数据集过度拟合。这可能表明卡拉狄加在更多与测试集显着不同的“域外”蛋白质方面表现得越来越差。对于未来的工作，减少重复可能是可取的；更一般地说，增加训练数据集中蛋白质的多样性可能是有益的。

5.7.2 功能关键词预测

我们现在研究从蛋白质序列到自然语言的特定翻译能力，这可能对蛋白质标注等任务有用。作为第一个测试，我们查看卡拉狄加可以从序列中推断出的 UniProt 关键字。背面的图 20 显示了此类示例。

图 20：蛋白质关键词预测。所示示例是来自 PaenSeq Holdout 的 Q108U0，这是一种来自非洲象的囊性纤维化跨膜电导调节剂。训练集中序列相似性最接近的蛋白质是 Q2QLA3 蛋白质，这是一种来自马的囊性纤维化跨膜电导规则，具有 91.8% 的序列相似性。

我们在表17中报告了结果。 $F_{1}$ 保留集的分数随着规模的增加而增加，这表明卡拉狄加可以通过从序列推断来学习关键字。然而，我们看到 CASPSimSeq 的饱和度，表明这种能力取决于序列与集中序列的相似程度。这在图 20 的示例中得到了体现，其中，卡拉狄加利用来自不同生物体的相似蛋白质的知识（训练集中的最大序列相似性为 91.8%）来帮助注释。

Protein Keyword Prediction
Model	Param (bn)	CASPSimSeq	PaenSeq	UniProtSeq
GAL 125M	0.1	10.5%	9.3%	15.2%
GAL 1.3B	1.3	17.4%	26.0%	21.9%
GAL 6.7B	6.7	18.4%	33.3%	25.1%
GAL 30B	30	22.0%	42.6%	40.8%
GAL 120B	120	21.9%	54.5%	48.7%

表 17：蛋白质关键词预测。显示的指标是

F_{1}

分数。性能随着坚持集的规模而提高。请注意，我们不包括 CASPSeq，因为它们没有可以测试的 UniProt 关键字。

我们试图将蛋白质序列中的注意力可视化，但我们没有观察到任何具有生物学解释的东西（例如对域的注意力）。我们的工作假设是，卡拉狄加已经学会了一种隐式的序列相似性度量，它用来关联预测的关键词，但这不能从它所关注的地方直接解释。这与我们的化学分析不同，化学分析的结果可以根据对潜在原子结构的关注来解释。

5.7.3 蛋白质功能说明

作为下一个测试，我们着眼于从序列中生成蛋白质功能的自由形式描述。我们查看 UniProt 函数描述并与卡拉狄加生成的描述进行比较。

我们在表18中报告了结果。 ROUGE-L 分数在所有坚持组中平稳增加。我们在 PaenSeq 的图 21 中展示了背页的示例。该蛋白是来自岩蹄兔 (Q7Y8J5) 的细胞色素 b 蛋白。训练集中相似性最接近的序列是来自侏儒河马 (O03363) 的细胞色素 b 蛋白，具有 83% 的序列相似性。在这种情况下，我们从描述中得到了完美的预测。

Protein Function Prediction
Model	Param (bn)	CASPSimSeq	PaenSeq	UniProtSeq
GAL 125M	0.1	0.062	0.073	0.061
GAL 1.3B	1.3	0.069	0.084	0.079
GAL 6.7B	6.7	0.109	0.137	0.111
GAL 30B	30	0.137	0.196	0.186
GAL 120B	120	0.252	0.272	0.252

表 18：蛋白质功能预测。显示的指标为 ROUGE-L。性能随着规模的扩大而提高。

图 21：蛋白质描述预测。所示示例是来自 PaenSeq Holdout 的 Q7Y8J5，这是一种来自岩蹄兔的细胞色素 b 蛋白。训练集中序列相似性最接近的蛋白质是 O03363 蛋白质，这是一种来自侏儒河马的细胞色素 b 蛋白质，具有 83% 的序列相似性。

与关键字预测任务一样，卡拉狄加似乎是根据与训练中看到的相似序列进行匹配来进行学习，并使用它来形成描述。这表明蛋白质序列的语言模型可以作为现有搜索方法（例如 BLAST 和 MMseqs2）的有用替代方法（Altschul 等人，1990；Steinegger 和 Söding，2017）。

6 毒性和偏差

在本节中，我们研究卡拉狄加模型的毒性和偏差。我们评估与刻板印象、毒性和错误信息相关的基准。我们将结果与其他语言模型进行比较。我们发现卡拉狄加比现有语言模型的偏见和毒性要小得多。

6.1 偏见和刻板印象

在以下评估中，我们使用四个广泛使用的基准来调查卡拉狄加检测（和生成）有害刻板印象和仇恨言论的能力。

6.1.1 乌鸦对

CrowS-Pairs
Bias type	`text-davinci-002`	OPT 175B	Galactica 120B
Race	64.7	68.6	59.9
Socioeconomic	73.8	76.2	65.7
Gender	62.6	65.7	51.9
Disability	76.7	76.7	66.7
Nationality	61.6	62.9	51.6
Sexual-orientation	76.2	78.6	77.4
Physical-appearance	74.6	76.2	58.7
Religion	73.3	68.6	67.6
Age	64.4	67.8	69.0
Overall	67.2	69.5	60.5

表 19：乌鸦配对结果。除了性取向和年龄之外，卡拉狄加在所有类别中都表现出明显较低的刻板偏见。

CrowS-Pairs 是 1,508 个众包句子对的集合，一对是“多”刻板印象，一对是“少”刻板印象，涵盖九个特征（Nangia 等人，2020）。这些特征包括种族、宗教、社会经济地位、年龄、残疾、国籍、性取向、外貌和性别。语言模型对刻板内容的偏好是通过计算首选“更多”刻板句子的示例比例来衡量的（由对数似然确定）。分数越高表明模型的偏见越有害，而没有偏见的理想模型得分为 50%。

我们在表 19 中报告了《卡拉狄加》和其他语言模型的结果。与最新的 GPT-3 (text-davinci-002) 和 OPT 175B 相比，《卡拉狄加》在大多数类别中表现出明显较低的刻板偏见（性取向和年龄除外）。与其他型号相比，卡拉狄加获得了 60.5% 的更高整体得分。 OPT 等语言模型使用 Pushshift.io Reddit 语料库作为主要数据源，这可能导致模型学习更多歧视性关联（Zhang 等人，2022）。卡拉狄加接受了科学语料库的训练，其中刻板印象和歧视性文本的发生率可能较低。

6.1.2立体声集

StereoSet
Category		`text-davinci-002`	OPT 175B	Galactica 120B
	LMS ( $\uparrow$ )	78.4	74.1	75.2
Prof.	SS ( $\downarrow$ )	63.4	62.6	57.2
	ICAT ( $\uparrow$ )	57.5	55.4	64.3
	LMS ( $\uparrow$ )	75.6	74.0	74.6
Gend.	SS ( $\downarrow$ )	66.5	63.6	59.1
	ICAT ( $\uparrow$ )	50.6	53.8	61.0
	LMS ( $\uparrow$ )	80.8	84.0	81.4
Reli.	SS ( $\downarrow$ )	59.0	59.0	55.1
	ICAT ( $\uparrow$ )	66.3	68.9	73.1
	LMS ( $\uparrow$ )	77.0	74.9	74.5
Race	SS ( $\downarrow$ )	57.4	56.8	54.8
	ICAT ( $\uparrow$ )	65.7	64.8	67.3
	LMS ( $\uparrow$ )	77.6	74.8	75.0
Overall	SS ( $\downarrow$ )	60.8	59.9	56.2
	ICAT ( $\uparrow$ )	60.8	60.0	65.6

表 20： StereoSet 结果。在 ICAT 分数上，卡拉狄加的表现优于所有类别的所有模型。

StereoSet 旨在衡量跨职业、宗教、性别和种族的刻板偏见（Nadeem 等人，2021）。该基准测试包含两项任务：句内任务和句间任务，每个开发集中都有大约 2,100 个示例。

•

句内任务：刻板印象和相关上下文位于同一个句子中。
•

句子间任务：上下文和刻板印象位于不同（连续）的句子中。

除了句子的立体和反立体变体之外，StereoSet 中的每个示例都包含一个不相关的句子。该句子用于测量语言建模分数 (LMS) 和刻板印象分数 (SS)。这两个指标结合起来形成理想化上下文关联测试分数（ICAT），它是偏见检测和语言建模的平衡衡量标准。理想的、公正的语言模型的 LMS 得分为 100，SS 得分为 50，ICAT 得分为 100。

我们在表 20 中报告结果。在 ICAT 总体得分的所有类别中，卡拉狄加都优于其他模型。

6.1.3毒性

为了测量毒性，我们使用 Gehman 等人 (2020) 中引入的 RealToxicityPrompts (RTP) 基准。我们遵循 Zhang 等人 (2022) 的相同设置，并使用核心采样 (p=0.9) 对 RTP 中的 5000 个随机采样提示中的每一个进行 25 代 20 个 Token 的采样。我们使用提示生成序列（即延续），然后由 Perspective API 提供的毒性分类器进行评分⁵⁵5https://github.com/conversationai/perspectiveapi。

图 22 绘制了结果。该图表显示了连续的平均毒性概率（y 轴），在原始提示的桶状毒性（x 轴）上分层。卡拉狄加的毒性率比其他模型低得多。

6.2真实的质量保证

TruthfulQA 是衡量语言模型生成答案真实性的基准（Lin 等人，2022a）。它包含 817 个问题，涵盖健康、法律、金融和其他类别。我们与其他已发布的语言模型进行比较。我们在表 21 中报告结果。《卡拉狄加》在该基准测试中超过了其他语言模型的性能。然而，绝对性能仍然较低。考虑到我们语料库的策划性质，这表明数据本身并不会导致语言模型在这项任务上陷入困境。

TruthfulQA
Model	MC1 (Acc)	MC1 (Std)
OPT 175B	21%	0.13
BLOOM 176B	19%	0.07
GAL 125M	19%	0.11
GAL 1.3B	19%	0.15
GAL 6.7B	19%	0.03
GAL 30B	24%	0.05
GAL 120B	26%	0.02

表 21：真实的 QA 结果。卡拉狄加展现出优于其他语言模型的性能，并且性能随着规模的增长而提高。但速度缓慢且水平较低。

7 局限性和未来的工作

7.1 限制

我们将在本节中介绍一些工作的局限性。

语料库的局限性

我们的语料库有一些外部和内部的限制。主要的外部限制是我们对开放获取资源的使用的限制，而论文和教科书等许多科学知识都不是开放获取的。通过访问这些封闭的知识来源，绩效可能会大大提高。我们还使用自我施加的约束，例如限制这项工作的分子和蛋白质的数量；如果没有这些限制，由于这些模式的语料库更大，我们可能会看到可观的性能提升。

语料库效果与提示效果

在几个基准测试中，我们显示了相对于现有语言模型的性能提升，但我们没有具体区分预训练中包含的提示与核心科学语料库的影响。在未来的工作中，我们可能需要理清这些影响，以便了解在不迅速提升的情况下仅使用科学语料库是否可以实现一般语言能力。

引用偏差

虽然我们证明该模型在规模上接近真实的引文分布，但 120B 规模模型仍然存在对热门论文的一些偏见，因此该模型在用于生产环境之前可能需要进行增强。

提示预训练与配置参数

我们在本文中选择了前者，但理想情况下，我们需要沿着 Chung 等人 (2022) 最近的工作来探索后者可以实现什么。这项工作的局限性在于，我们不通过消融进行直接比较，从而明确方法之间的权衡。

基本知识

虽然卡拉狄加通过维基百科等来源吸收了广泛的社会知识 - 例如120B 知道亚庇是马来西亚沙巴州的首府 - 我们不建议将其用于需要此类知识的任务，因为这不是预期的用例。

文本作为一种情态

虽然我们已经证明基于文本的变形金刚在科学现象的文本表示方面具有惊人的强大功能，但我们警告不要认为文本就是您所需要的一切。例如，在化学中，几何学是决定意义的基本语言，但卡拉狄加没有几何学的概念；例如原子的 3D 坐标。

7.2未来的工作

对于基础模型的开发，我们强调了几个可能值得追求的方向。

新目标函数

正如 U-PaLM 最近展示的那样，通过混合去噪训练可能会获得进一步的收益(Tay 等人, 2022b; Chung 等人, 2022)。我们怀疑这可能对蛋白质序列等科学模式有益，因为从左到右的 LM 目标相当有限。

更大的上下文窗口

在这项工作中，我们使用 $2048$ 标记的最大上下文窗口长度。扩展这一点可能有利于理解长篇科学文档，例如教科书以及具有较长模态序列（例如长蛋白质序列）的文档。

扩展到图像

如果不捕捉图像，我们就无法充分捕捉科学知识。这是一个自然的后续项目，尽管它可能需要一些架构修改才能使其正常工作。现有的工作如Alayrac 等人 (2022) 已经展示了如何用这种模式扩展大语言模型。

确认

即使语言模型随着规模的扩大而变得更加准确，我们也需要保证它们的生成是正确和真实的。开发这一层对于科学应用之外的语言模型的生产应用至关重要。

持续学习

我们应该从头开始重新训练以融入新的科学知识还是从旧的检查点进行训练？这是一个悬而未决的问题，需要进一步研究来找到将新知识纳入模型的最佳程序。

检索增强

虽然我们已经展示了大型语言模型如何吸收大量科学知识，但检索对于细粒度类型的知识也有一席之地，我们相信这是补充 Transformer 灵活权重记忆的一个强有力的方向。

8讨论与结论

半个多世纪以来，获取科学知识的主要方式一直是通过存储和检索范式。这种方法的局限性在于信息的推理、组合和组织仍然依赖于人类的努力。这导致了严重的知识吞吐量瓶颈。在这项工作中，我们探讨了语言模型如何打破这种范式，并为人类与知识交互带来一个新的界面。

我们表明，语言模型对技术知识（例如 LaTeX 方程和化学反应）的吸收能力惊人地强大，并且这些功能往往会随着模型大小而平滑地扩展。从长远来看，语言模型的上下文关联能力可能比搜索引擎具有显着的优势。我们在引文预测中证明了这一点，在该任务中，语言模型的性能优于经过调整的稀疏和密集检索管道。语言模型可能会在未来几年为探索文献和科学知识体系提供有价值的新工具。

我们还证明了语言模型可以组成一个精心策划的知识库，以便在知识密集型问答任务中表现良好。这包括以逐步推理的方式组合知识。我们证明，通过工作记忆词符方法，我们可以在数学 MMLU 和 MATH 基准测试中实现优于现有方法的强大性能。我们怀疑像数学这样的任务原则上可以通过语言模型方法来解决。当前的瓶颈是高质量分步数据集的可用性。然而，语言模型不会像人类一样执行这些任务，除非它们进行了支持自适应计算的架构更改。

我们还对大语言模型作为科学模式和自然语言之间桥梁的潜力进行了初步调查。我们证明卡拉狄加可以通过自我监督来学习 IUPAC 命名等任务。我们还表明，可以在自然语言提示下制定像 MoleculeNet 这样的药物发现任务，并且无需直接微调即可取得良好的结果。最后，我们展示了自动蛋白质标注等任务的潜力。总而言之，增加连接自然语言和自然序列的数据集的数量（和大小）可能会进一步提高性能。

总而言之，我们认为语言模型有很大的潜力来承担目前人类专业领域的知识任务。我们开源这些模型，以便其他人可以在我们的工作基础上进行构建，我们期待看到开放机器学习社区将如何扩展它。

致谢

感谢 Susan Zhang、Stephen Roller、Naman Goyal 等人对使用 Metaseq 的支持。我们建立在他们通过 OPT 项目（Zhang 等人，2022）实现的开放大语言模型训练基础上。

感谢 Iliyan Zarov、Lukas Blecher、Jian Xiang Kuan 和 Mikhail Pershin 对该项目的贡献。

感谢 Faisal Azhar 和 Joe Spisak 在交付该项目时提供的宝贵支持。

感谢 Antonine Bordes、Laurens van der Maaten 和 Joelle Pineau 的领导支持以及对该项目的信任。另外感谢 Laurens 对本文提出的宝贵反馈。

感谢 Geeta Chauhan、Hamid Shojanazeri 和 Eric Han 为加快推理速度提供的帮助。

感谢许多其他人在过去一年中提出的意见和建议：Patrick Lewis、Pontus Stenetorp、Timo Schick、Sebastian Riedel、Soumith Chintala。

感谢开源创建者，他们为我们提供了库、数据集和其他工具。您的努力加速了我们的努力；我们开源我们的模型来加速您的模型。

感谢我们在训练 120B 模型时 GPU 节点没有死掉。

参考

Alayrac et al. (2022) Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning, 2022. URL https://arxiv.org/abs/2204.14198.
Altschul et al. (1990) S F Altschul, W Gish, W Miller, E W Myers, and D J Lipman. Basic local alignment search tool. J. Mol. Biol., 215(3):403–410, October 1990.
Aribandi et al. (2021) Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, and Donald Metzler. Ext5: Towards extreme multi-task scaling for transfer learning, 2021. URL https://arxiv.org/abs/2111.10952.
arXiv (2022) arXiv. arXiv Monthly Submissions, 2022. URL https://arxiv.org/stats/monthly_submissions.
Banino et al. (2021) Andrea Banino, Jan Balaguer, and Charles Blundell. Pondernet: Learning to ponder. CoRR, abs/2107.05407, 2021. URL https://arxiv.org/abs/2107.05407.
Beltagy et al. (2019) Iz Beltagy, Arman Cohan, and Kyle Lo. Scibert: Pretrained contextualized embeddings for scientific text. CoRR, abs/1903.10676, 2019. URL http://arxiv.org/abs/1903.10676.
Black et al. (2022) Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, and Samuel Weinbach. Gpt-neox-20b: An open-source autoregressive language model, 2022. URL https://arxiv.org/abs/2204.06745.
Blodgett et al. (2020) Su Lin Blodgett, Solon Barocas, Hal Daumé III, and Hanna M. Wallach. Language (technology) is power: A critical survey of "bias" in NLP. CoRR, abs/2005.14050, 2020. URL https://arxiv.org/abs/2005.14050.
Borgeaud et al. (2021) Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, and Laurent Sifre. Improving language models by retrieving from trillions of tokens, 2021. URL https://arxiv.org/abs/2112.04426.
Bornmann and Mutz (2014) Lutz Bornmann and Rüdiger Mutz. Growth rates of modern science: A bibliometric analysis. CoRR, abs/1402.4578, 2014. URL http://arxiv.org/abs/1402.4578.
Briol et al. (2015) François-Xavier Briol, Chris Oates, Mark Girolami, and Michael A Osborne. Frank-wolfe bayesian quadrature: Probabilistic integration with theoretical guarantees. Advances in Neural Information Processing Systems, 28, 2015.
Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. CoRR, abs/2005.14165, 2020. URL https://arxiv.org/abs/2005.14165.
Bush (1945) Vannevar Bush. As We May Think. Atlantic Monthly 176 (July 1945), pages 101–108, 1945.
Cachola et al. (2020) Isabel Cachola, Kyle Lo, Arman Cohan, and Daniel S. Weld. TLDR: extreme summarization of scientific documents. CoRR, abs/2004.15011, 2020. URL https://arxiv.org/abs/2004.15011.
Chowdhery et al. (2022) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways, 2022. URL https://arxiv.org/abs/2204.02311.
Chung et al. (2022) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/2210.11416.
Clark et al. (2019) Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. Boolq: Exploring the surprising difficulty of natural yes/no questions. CoRR, abs/1905.10044, 2019. URL http://arxiv.org/abs/1905.10044.
Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. CoRR, abs/2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.
Dasigi et al. (2019) Pradeep Dasigi, Nelson F. Liu, Ana Marasović, Noah A. Smith, and Matt Gardner. Quoref: A reading comprehension dataset with questions requiring coreferential reasoning. In EMNLP, 2019.
Dasigi et al. (2021) Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of information-seeking questions and answers anchored in research papers. In NAACL, 2021.
Dev et al. (2019) Sunipa Dev, Tao Li, Jeff M. Phillips, and Vivek Srikumar. On measuring and mitigating biased inferences of word embeddings. CoRR, abs/1908.09369, 2019. URL http://arxiv.org/abs/1908.09369.
Dinan et al. (2018) Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Wizard of wikipedia: Knowledge-powered conversational agents, 2018. URL https://arxiv.org/abs/1811.01241.
(23) Henri A. Favre and Warren H. Powerll. Nomenclature of organic chemistry: Iupac recommendations and preferred names 2013.
Galilei (1623) Galileo Galilei. Assayer. 1623.
Gao et al. (2022) Luyu Gao, Zhuyun Dai, Panupong Pasupat, Anthony Chen, Arun Tejasvi Chaganty, Yicheng Fan, Vincent Y. Zhao, Ni Lao, Hongrae Lee, Da-Cheng Juan, and Kelvin Guu. Attributed text generation via post-hoc research and revision, 2022. URL https://arxiv.org/abs/2210.08726.
García-Ortegón et al. (2022) Miguel García-Ortegón, Gregor N. C. Simm, Austin J. Tripp, José Miguel Hernández-Lobato, Andreas Bender, and Sergio Bacallado. Dockstring: Easy molecular docking yields better benchmarks for ligand design. Journal of Chemical Information and Modeling, 62(15):3486–3502, 2022. doi: 10.1021/acs.jcim.1c01334. URL https://doi.org/10.1021/acs.jcim.1c01334. PMID: 35849793.
Gehman et al. (2020) Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. ArXiv, abs/2009.11462, 2020.
GenBank (2022) GenBank. GenBank and WGS Statistics, 2022. URL https://www.ncbi.nlm.nih.gov/genbank/statistics.
Graves (2016) Alex Graves. Adaptive computation time for recurrent neural networks, 2016. URL https://arxiv.org/abs/1603.08983.
GROBID (2008–2022) GROBID. Grobid. https://github.com/kermitt2/grobid, 2008–2022.
Gu et al. (2020) Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. CoRR, abs/2007.15779, 2020. URL https://arxiv.org/abs/2007.15779.
Gunasekara et al. (2019) Chulaka Gunasekara, Jonathan K. Kummerfeld, Lazaros Polymenakos, and Walter Lasecki. DSTC7 task 1: Noetic end-to-end response selection. In Proceedings of the First Workshop on NLP for Conversational AI, pages 60–67, Florence, Italy, August 2019. Association for Computational Linguistics. doi: 10.18653/v1/W19-4107. URL https://aclanthology.org/W19-4107.
Hendrycks and Gimpel (2016) Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (gelus), 2016. URL https://arxiv.org/abs/1606.08415.
Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding, 2020. URL https://arxiv.org/abs/2009.03300.
Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. CoRR, abs/2103.03874, 2021. URL https://arxiv.org/abs/2103.03874.
Hernandez et al. (2022) Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, Scott Johnston, Ben Mann, Chris Olah, Catherine Olsson, Dario Amodei, Nicholas Joseph, Jared Kaplan, and Sam McCandlish. Scaling laws and interpretability of learning from repeated data, 2022. URL https://arxiv.org/abs/2205.10487.
Hirschmann (1964) Winfred B. Hirschmann. Profit from the Learning Curve, January 1964.
Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training compute-optimal large language models, 2022. URL https://arxiv.org/abs/2203.15556.
Honda et al. (2019) Shion Honda, Shoi Shi, and Hiroki R. Ueda. Smiles transformer: Pre-trained molecular fingerprint for low data drug discovery. 2019.
Hong et al. (2022) Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Carl Malamud, Roger Magoulas, Kyle Chard, and Ian Foster. Scholarbert: Bigger is not always better, 2022. URL https://arxiv.org/abs/2205.11342.
Irwin et al. (2021) Ross Irwin, Spyridon Dimitriadis, Jiazhen He, and Esben Bjerrum. Chemformer: A pre-trained transformer for computational chemistry. ChemRxiv, 2021. doi: 10.26434/chemrxiv-2021-v2pnn.
Izacard et al. (2021) Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. Towards unsupervised dense information retrieval with contrastive learning. CoRR, abs/2112.09118, 2021. URL https://arxiv.org/abs/2112.09118.
Izacard et al. (2022) Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. Few-shot learning with retrieval augmented language models, 2022.
Jackson (1990) Peter Jackson. Introduction to Expert Systems. Addison-Wesley Longman Publishing Co., Inc., USA, 2nd edition, 1990. ISBN 0201175789.
Jin et al. (2019) Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W. Cohen, and Xinghua Lu. Pubmedqa: A dataset for biomedical research question answering. CoRR, abs/1909.06146, 2019. URL http://arxiv.org/abs/1909.06146.
Johnson et al. (2019) Jeff Johnson, Matthijs Douze, and Hervé Jégou. Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 7(3):535–547, 2019.
Joulin et al. (2016) Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016.
Jumper et al. (2021) John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Andrew J Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, and Demis Hassabis. Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873):583–589, 2021. doi: 10.1038/s41586-021-03819-2.
Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. CoRR, abs/2001.08361, 2020. URL https://arxiv.org/abs/2001.08361.
Kembhavi et al. (2017) Aniruddha Kembhavi, Minjoon Seo, Dustin Schwenk, Jonghyun Choi, Ali Farhadi, and Hannaneh Hajishirzi. Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5376–5384, 2017.
Khashabi et al. (2020) Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system, 2020. URL https://arxiv.org/abs/2005.00700.
Khot et al. (2018) Tushar Khot, Ashish Sabharwal, and Peter Clark. Scitail: A textual entailment dataset from science question answering. In AAAI, 2018.
Khot et al. (2020) Tushar Khot, Peter Clark, Michal Guerquin, Peter Alexander Jansen, and Ashish Sabharwal. Qasc: A dataset for question answering via sentence composition. ArXiv, abs/1910.11473, 2020.
Kim et al. (2004) J.-D. Kim, T. Ohta, Y. Tsuruoka, Y. Tateisi, and N. Collier. Introduction to the bio-entity recognition task at jnlpba. International Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 2004.
Kojima et al. (2022) Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners, 2022. URL https://arxiv.org/abs/2205.11916.
Krallinger et al. (2004) Martin Krallinger, Obdulia Rabal, Florian Leitner, David Salgado Miguel Vazquez, Zhiyong Lu, Robert Leaman, Donghong Ji andDaniel M Lowe andRoger A Sayle andRiza Theresa Batista-Navarro Yanan Lu, Rafal Rak, Torsten Huber, Tim Rocktäschel, Sérgio Matos andDavid Campos, Buzhou Tang, Hua Xu, Tsendsuren Munkhdalai, Keun Ho Ryu, SV Ramanan, Senthil Nathan, Slavko Žitnik, Marko Bajec, Lutz Weber, Matthias Irmer, Saber A Akhondi, Jan A Kors, Shuo Xu, Xin An, Utpal Kumar Sikdar, Asif Ekbal, Thaer M Dieb Masaharu Yoshioka, Miji Choi, Karin Verspoor, Madian Khabsa, C Lee Giles, Hongfang Liu, Komandur Elayavilli Ravikumar, Francisco M Couto Andre Lamurias, Hong-Jie Dai, Richard Tzong-Han Tsai, Caglar Ata, Tolga Can, Anabel Usié, Rui Alves, Isabel Segura-Bedmar, Paloma Martínez, Julen Oyarzabal, and Alfonso Valencia. The chemdner corpus of chemicals and drugs and its annotation principles. J Cheminform, 2004.
Krasnov et al. (2021) Lev Krasnov, Ivan Khokhlov, Maxim V. Fedorov, and Sergey Sosnin. Transformer-based artificial neural networks for the conversion between chemical notations, 2021. URL https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00512-4.
Kurita et al. (2019) Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W. Black, and Yulia Tsvetkov. Measuring bias in contextualized word representations. CoRR, abs/1906.07337, 2019. URL http://arxiv.org/abs/1906.07337.
Lee et al. (2022) Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2022.
Lewis et al. (2020a) Patrick Lewis, Myle Ott, Jingfei Du, and Veselin Stoyanov. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art. In Proceedings of the 3rd Clinical Natural Language Processing Workshop, pages 146–157, Online, November 2020a. Association for Computational Linguistics. doi: 10.18653/v1/2020.clinicalnlp-1.17. URL https://aclanthology.org/2020.clinicalnlp-1.17.
Lewis et al. (2020b) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks, 2020b. URL https://arxiv.org/abs/2005.11401.
Lewkowycz et al. (2022) Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, and Vedant Misra. Solving quantitative reasoning problems with language models, 2022. URL https://arxiv.org/abs/2206.14858.
Li et al. (2016) Jiao Li, Yueping Sun, Robin J Johnson, Daniela Sciaky, Chih-Hsuan Wei, Robert Leaman, Allan Peter Davis, Carolyn J Mattingly, Thomas C Wiegers, and Zhiyong Lu. BioCreative V CDR task corpus: a resource for chemical disease relation extraction. Database (Oxford), 2016:baw068, May 2016.
Licklider (1960) J.R. Licklider. Man-Computer Symbiosis. IRE Transactions on Human Factors in Electronics, HFE-1, pages 4–11, 1960.
Lin et al. (2019) Kevin Lin, Oyvind Tafjord, Peter Clark, and Matt Gardner. Reasoning over paragraph effects in situations. ArXiv, abs/1908.05852, 2019.
Lin et al. (2022a) Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022a. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.
Lin et al. (2022b) Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Sal Candido, and Alexander Rives. Language models of protein sequences at the scale of evolution enable accurate structure prediction. bioRxiv, 2022b. doi: 10.1101/2022.07.20.500902. URL https://www.biorxiv.org/content/early/2022/07/21/2022.07.20.500902.
Lo et al. (2019a) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel S. Weld. GORC: A large contextual citation graph of academic papers. CoRR, abs/1911.02782, 2019a. URL http://arxiv.org/abs/1911.02782.
Lo et al. (2019b) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel S. Weld. GORC: A large contextual citation graph of academic papers. CoRR, abs/1911.02782, 2019b. URL http://arxiv.org/abs/1911.02782.
Loshchilov and Hutter (2017) Ilya Loshchilov and Frank Hutter. Fixing weight decay regularization in adam. CoRR, abs/1711.05101, 2017. URL http://arxiv.org/abs/1711.05101.
Lowe et al. (2011) Daniel M. Lowe, Peter T. Corbett, Peter Murray-Rust, and Robert C. Glen. Chemical name to structure: Opsin, an open source solution, 2011. URL https://pubs.acs.org/doi/full/10.1021/ci100384d.
Marx (2013) Vivien Marx. The big challenges of big data. Nature, 498:255–260, 2013. URL https://www.nature.com/articles/498255a.
Massey (1951) Frank J. Massey. The kolmogorov-smirnov test for goodness of fit. Journal of the American Statistical Association, 46(253):68–78, mar 1951. doi: 10.1080/01621459.1951.10500769. URL https://doi.org/10.1080%2F01621459.1951.10500769.
Mihaylov et al. (2018) Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In EMNLP, 2018.
Mitchell et al. (2022) Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, and Chelsea Finn. Memory-based model editing at scale, 2022. URL https://arxiv.org/abs/2206.06520.
Nadeem et al. (2021) Moin Nadeem, Anna Bethke, and Siva Reddy. StereoSet: Measuring stereotypical bias in pretrained language models. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5356–5371, Online, August 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.416. URL https://aclanthology.org/2021.acl-long.416.
Nangia et al. (2020) Nikita Nangia, Clara Vania, Rasika Bhalerao, and Samuel R. Bowman. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1953–1967, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.154. URL https://aclanthology.org/2020.emnlp-main.154.
Nentidis et al. (2021) Anastasios Nentidis, Georgios Katsimpras, Eirini Vandorou, Anastasia Krithara, Luis Gascó, Martin Krallinger, and Georgios Paliouras. Overview of bioasq 2021: The ninth bioasq challenge on large-scale biomedical semantic indexing and question answering. CoRR, abs/2106.14885, 2021. URL https://arxiv.org/abs/2106.14885.
Nieschlag et al. (2010) E Nieschlag, HM Behre, and S Nieschlag. Andrology: Male reproductive health and dysfunction, 2010.
Nijkamp et al. (2022) Erik Nijkamp, Jeffrey Ruffolo, Eli N. Weinstein, Nikhil Naik, and Ali Madani. Progen2: Exploring the boundaries of protein language models, 2022. URL https://arxiv.org/abs/2206.13517.
Pafilis et al. (2013) Evangelos Pafilis, Sune P Frankild, Lucia Fanini, Sarah Faulwetter, Christina Pavloudi, Aikaterini Vasileiadou, Christos Arvanitidis, and Lars Juhl Jensen. The species and organisms resources for fast and accurate identification of taxonomic names in text. PloS one, 8(6), 2013.
Pal et al. (2022) Ankit Pal, Logesh Kumar Umapathi, and Malaikannan Sankarasubbu. Medmcqa : A large-scale multi-subject multi-choice dataset for medical domain question answering. 2022. doi: 10.48550/ARXIV.2203.14371. URL https://arxiv.org/abs/2203.14371.
Petroni et al. (2019) F. Petroni, T. Rocktäschel, A.H. Miller, P. Lewis, A. Bakhtin, Y. Wu, and S. Riedel. Language models as knowledge bases? In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019, 2019.
Press et al. (2021) Ofir Press, Noah A. Smith, and Mike Lewis. Train short, test long: Attention with linear biases enables input length extrapolation. CoRR, abs/2108.12409, 2021. URL https://arxiv.org/abs/2108.12409.
Rae et al. (2021) Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, H. Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant M. Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake A. Hechtman, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Scaling language models: Methods, analysis & insights from training gopher. CoRR, abs/2112.11446, 2021. URL https://arxiv.org/abs/2112.11446.
Raffel et al. (2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. URL http://jmlr.org/papers/v21/20-074.html.
Rajan et al. (2021) K Rajan, A Zielesny, and C. Steinbeck. Stout: Smiles to iupac names using neural machine translation, 2021. URL https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00512-4.
Ramsundar et al. (2019) Bharath Ramsundar, Peter Eastman, Patrick Walters, Vijay Pande, Karl Leswing, and Zhenqin Wu. Deep Learning for the Life Sciences. O’Reilly Media, 2019. https://www.amazon.com/Deep-Learning-Life-Sciences-Microscopy/dp/1492039837.
Razeghi et al. (2022) Yasaman Razeghi, Robert L. Logan, Matt Gardner, and Sameer Singh. Impact of pretraining term frequencies on few-shot reasoning, 2022. URL https://arxiv.org/abs/2202.07206.
Rives et al. (2021) Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, and Rob Fergus. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118(15):e2016239118, 2021. doi: 10.1073/pnas.2016239118. URL https://www.pnas.org/doi/abs/10.1073/pnas.2016239118.
Ross et al. (2021) Jerret Ross, Brian Belgodere, Vijil Chenthamarakshan, Inkit Padhi, Youssef Mroueh, and Payel Das. Do large scale molecular language representations capture important structural information? CoRR, abs/2106.09553, 2021. URL https://arxiv.org/abs/2106.09553.
Sanh et al. (2021) Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Tali Bers, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M. Rush. Multitask prompted training enables zero-shot task generalization, 2021. URL https://arxiv.org/abs/2110.08207.
Scialom et al. (2022) Thomas Scialom, Tuhin Chakrabarty, and Smaranda Muresan. Continual-t0: Progressively instructing 50+ tasks to language models without forgetting, 2022. URL https://arxiv.org/abs/2205.12393.
Sennrich et al. (2015) Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. CoRR, abs/1508.07909, 2015. URL http://arxiv.org/abs/1508.07909.
Sheng et al. (2019) Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. The woman worked as a babysitter: On biases in language generation. CoRR, abs/1909.01326, 2019. URL http://arxiv.org/abs/1909.01326.
Sheng et al. (2021) Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. Societal biases in language generation: Progress and challenges. CoRR, abs/2105.04054, 2021. URL https://arxiv.org/abs/2105.04054.
Shin et al. (2020) Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, and Raghav Mani. Biomegatron: Larger biomedical domain language model. CoRR, abs/2010.06060, 2020. URL https://arxiv.org/abs/2010.06060.
Smith et al. (2008) Larry Smith, Lorraine K Tanabe, Rie Johnson nee Ando, Cheng-Ju Kuo, I-Fang Chung, Chun-Nan Hsu, Yu-Shi Lin, Roman Klinger, Christoph M Friedrich, Kuzman Ganchev, Manabu Torii, Hongfang Liu, Barry Haddow, Craig A Struble, Richard J Povinelli, Andreas Vlachos, William A Baumgartner Jr, Lawrence Hunter, Bob Carpenter, Richard Tzong-Han Tsai, Hong-Jie Dai, Feng Liu, Yifei Chen, Chengjie Sun, Sophia Katrenko, Pieter Adriaans, Christian Blaschke, Rafael Torres, Mariana Neves, Preslav Nakov, Anna Divoli, Manuel Maña-López, Jacinto Mata, and W John Wilbur. Overview of biocreative ii gene mention recognition. Genome Biology, 9, 2008.
Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karakaş, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bartłomiej Bojanowski, Batuhan Özyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, César Ferri Ramírez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Moseguí González, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Martínez-Plumed, Francesca Happé, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germán Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-López, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Schütze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fernández Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Kocoń, Jana Thompson, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, Jörg Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Colón, Luke Metz, Lütfi Kerem Şenel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ramírez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, Mátyás Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Michał Swędrowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ramón Risco Delgado, Raphaël Millière, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Debnath Shyamolima, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinran Zhao, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, and Ziyi Wu. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models, 2022. URL https://arxiv.org/abs/2206.04615.
Steinegger and Söding (2017) Martin Steinegger and Johannes Söding. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Nature Biotechnology, 35(11):1026–1028, October 2017. doi: 10.1038/nbt.3988. URL https://doi.org/10.1038/nbt.3988.
Suzgun et al. (2022) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, and Jason Wei. Challenging big-bench tasks and whether chain-of-thought can solve them, 2022. URL https://arxiv.org/abs/2210.09261.
Taboureau et al. (2011) Olivier Taboureau, Sonny Kim Nielsen, Karine Audouze, Nils Weinhold, Daniel Edsgärd, Francisco S Roque, Irene Kouskoumvekaki, Alina Bora, Ramona Curpan, Thomas Skøt Jensen, Søren Brunak, and Tudor I Oprea. ChemProt: a disease chemical biology database. Nucleic Acids Res., 39(Database issue):D367–72, January 2011.
Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: A question answering challenge targeting commonsense knowledge. CoRR, abs/1811.00937, 2018. URL http://arxiv.org/abs/1811.00937.
Tay et al. (2022a) Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, and Donald Metzler. Scaling laws vs model architectures: How does inductive bias influence scaling?, 2022a. URL https://arxiv.org/abs/2207.10551.
Tay et al. (2022b) Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, and Mostafa Dehghani. Transcending scaling laws with 0.12022b. URL https://arxiv.org/abs/2210.11399.
Thoppilan et al. (2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, and Quoc Le. Lamda: Language models for dialog applications, 2022. URL https://arxiv.org/abs/2201.08239.
V et al. (2021) Venktesh V, Mukesh K. Mohania, and Vikram Goyal. Tagrec: Automated tagging of questions with hierarchical learning taxonomy. CoRR, abs/2107.10649, 2021. URL https://arxiv.org/abs/2107.10649.
Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. CoRR, abs/1706.03762, 2017. URL http://arxiv.org/abs/1706.03762.
Wei et al. (2021) Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. Finetuned language models are zero-shot learners, 2021. URL https://arxiv.org/abs/2109.01652.
Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models, 2022. URL https://arxiv.org/abs/2201.11903.
Weininger (1988) David Weininger. Smiles, a chemical language and information system. 1. introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences, 28(1):31–36, 1988. doi: 10.1021/ci00057a005. URL https://doi.org/10.1021/ci00057a005.
Welbl et al. (2017) Johannes Welbl, Nelson F. Liu, and Matt Gardner. Crowdsourcing multiple choice science questions. ArXiv, abs/1707.06209, 2017.
Wheeler (1990) John Wheeler. Information, physics, quantum: The search for links. Zurek, W.H., Ed., Complexity, Entropy, and the Physics of Information, 1990.
Wigner (1959) Eugene Wigner. The unreasonable effectiveness of mathematics in the natural sciences. Communications on Pure and Applied Mathematics, 1959.
Wu et al. (2017) Zhenqin Wu, Bharath Ramsundar, Evan N. Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, and Vijay Pande. Moleculenet: A benchmark for molecular machine learning, 2017. URL https://arxiv.org/abs/1703.00564.
Xu et al. (2017) Yichong Xu, Jingjing Liu, Jianfeng Gao, Yelong Shen, and Xiaodong Liu. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. CoRR, abs/1711.04964, 2017. URL http://arxiv.org/abs/1711.04964.
Yasunaga et al. (2022) Michihiro Yasunaga, Jure Leskovec, and Percy Liang. Linkbert: Pretraining language models with document links, 2022. URL https://arxiv.org/abs/2203.15827.
Zhang et al. (2022) Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, and Luke Zettlemoyer. Opt: Open pre-trained transformer language models, 2022. URL https://arxiv.org/abs/2205.01068.
Zhou et al. (2022) Gengmo Zhou, Zhifeng Gao Gao, Qiankun Ding, Hang Zheng, Wei Xu, Hongteng, Linfeng Zhang, and Guolin Ke. Uni-mol: A universal 3d molecular representation learning framework, 2022. URL https://chemrxiv.org/engage/chemrxiv/article-details/628e5b4d5d948517f5ce6d72.

附录A附录

A.1 数据集组件

我们在本节中介绍语料库的各个组成部分。

A.1.1论文

我们从预印本服务器（例如 arXiv、PMC 和其他来源）获取科学论文；参见表22。

我们还使用语义学者全文数据集（S2）来捕获科学长尾（Lo等人，2019a）。我们应用了多种质量过滤器，包括排除具有某些关键字的期刊中的论文，以及排除期刊影响因子较低的论文。我们使用的过滤器的详细信息包含在附录中。

我们获取全文不开放获取的摘要。截至 2022 年 7 月，完整数据集总共包含 4800 万篇论文、摘要和全文。

Data source	Documents	Tokens
arXiv	2 million	35 billion
PMC	3 million	23 billion
Semantic Scholar	3 million	18 billion
PubMed Abstracts	21 million	5 billion
Semantic Scholar Abstracts	19 million	4 billion
bioRxiv	128,059	1 billion
OSF	54,905	428 million
medRxiv	24,019	176 million
ACL	25,518	150 million
PubAg Abstracts	308,235	105 million
ChemRxiv	7,617	67 million
Total	48 million	88 billion

表 22：我们的语料库中使用的论文来源

我们使用 GROBID 库的修改版本将 PDF 转换为文本，并获取标题、作者和引文（GROBID，2008-2022）。在数学 LaTeX 可用的情况下，例如在 arXiv 中，我们确保将 GROBID 结果与 LaTeX 源结合起来以恢复数学内容。

最终的纸质文档以 Markdown 格式存储，而不是完整的 LaTeX。我们使用 Markdown 作为语料库中所有文档的标准格式，以支持来源之间的知识混合。论文按照第 2.2 节基于标题的方法进行引用处理。

A.1.2参考资料

我们收集百科全书、教科书和教育材料来创建模型可以学习的参考材料基础。详细信息参见表23。

Data source	Documents	Tokens
Wikipedia	6 million	5 billion
StackExchange	1.6 million	1 billion
LibreText	95,113	185 million
Wikibooks	74,705	110 million
Open Textbooks	647	94 million
MIT OCW	25,640	90 million
Wikiversity	38,138	52 million
ProofWiki	32,389	12 million
Khan Academy	3,075	7 million
Papers with Code	13,430	4 million
IUPAC Goldbook	6,788	1 million
Total	8 million	7 billion

表 23：我们语料库中使用的参考材料

我们对几个数据集应用源特定处理，特别是：

•

对于StackExchange，我们从科学网站上提出问题；请参阅附录了解所使用的子集。
•

对于带有代码的论文和IUPAC Goldbook，我们以提示随机化的形式应用数据增强。有时我们将部分作为问题/答案；例如，解释机器学习方法的部分有时会被提出为“问题：什么是[方法]？”。
•

对于KhanAcademy 文章，我们添加了<work>词符，用于逐步推理示例，我们将在第 2.4 节中简要说明。

我们努力保存数学 LaTeX 并捕获引用，包括论文的超链接。

A.1.3知识库

我们从科学知识库中获取细粒度的知识。详细信息参见表24。

Data source	Documents	Tokens
PubChem Compound	1.7 million	1 billion
UniProt	551,837	0.6 billion
RefSeq Genome	69	0.1 billion
OEIS	350,833	0.07 billion
Ribosome	9,950	0.05 billion
LIPID MAPS	45,273	0.03 billion
Reactome	156	0.01 billion
NASA Exoplanet	5,021	0.01 billion
Total	2 million	2 billion

表 24：我们的语料库中使用的知识库

对于化学和生物学数据集，我们将 SMILES 和蛋白质序列等模态及其专用标记包装起来（参见第 2.1 节）。对于 UniProt，我们将数据增强应用于文档格式：

•

顺序随机化 - 蛋白质序列以 $0.5$ 的概率从文档的开头开始，否则从文档的结尾开始。这确保我们可以从 $\text{seq}\rightarrow\text{property}$ 和 $\text{property}\rightarrow\text{seq}$ 中学习。
•

格式随机化 - 我们以 $\frac{1}{3}$ 的概率替换描述，例如“蛋白质的功能是……”，带有问答，例如“问题：该蛋白质的功能是什么？答案：功能是……”。

对于 NASA 系外行星，我们对系外行星特征应用顺序随机化。

对于化学和生物序列，我们采用可用实体的一小部分。这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。具体来说：

•

对于 PubChem 化合物，我们选取总化合物( $110$ 百万）的一个小的随机子集( $2$ 百万）。
•

对于 UniProt，我们采用经过审查的 Swiss-Prot 蛋白质；总数( $227$ 百万）的一小部分( $0.5$ 百万）。
•

对于RefSeq Genome，我们采用参考序列，它是可用核苷酸序列的一小部分。对于人类基因组，我们只包含蛋白质编码基因。

这是我们可以在未来的工作中放松的限制，从而实现更大的语料库。在这项工作中，我们重点关注调查单个模型是否可以在这种多模态环境中有效学习的第一步。

A.1.4普通爬取

我们通过 CommonCrawl 的高度过滤子集来获取学术和科学内容。详细信息参见表25。

Data source	Documents	Tokens
ScientificCC	0.8 million	0.7 billion
AcademicCC	0.05 million	0.4 billion
Total	0.9 million	1.1 billion

表 25：我们的语料库中使用的 CommonCrawl 材料

对于Scientific Common Crawl，我们训练了一个快速文本分类器，使用 600 个域的噪声集来识别具有科学内容的 Common Crawl 网页（Joulin 等人，2016）。然后，我们手动将 fasttext 预测的领域注释为科学领域，以汇总 200 个高质量科学和参考领域的列表。

对于学术通用抓取，我们汇总了学术领域的列表，例如大学网站。我们根据 Common Crawl 索引从这些域中获取 PDF，并使用 GROBID 对其进行处理。

我们不会对这些来源的页面进行 LaTeX 处理。

我们发现 CommonCrawl 中提取的文本质量通常很差，这就是我们应用严格过滤器的原因。我们怀疑这可能是未来工作的一个重要领域，以便获取更多基础科学知识。

A.1.5代码

我们从机器学习、物理、数学、统计学和天文学的 Papers with Code 索引中获取学术 GitHub 存储库。该索引并未明确涵盖生物学和化学等科学，但其中许多存储库都被捕获为通用机器学习索引的一部分。我们排除没有许可证或版权文件的存储库。

A.1.6 <工作>数据集

For KhanProblems, we used the problems from AMPS and converted to a <work> format (Hendrycks et al., 2021). 在可能的情况下，我们尝试加入更繁琐的步骤来减少单次传递的错误，但这个标注相当不完整，我们怀疑通过更多的清洁可能会获得更大的收益。

For GSM8k we use the provided training dataset and convert so the calculator steps are performed by writing a Python program, following the <work> format (Cobbe et al., 2021). 总的来说，我们发现当模型进入这种提示风格时，更容易出错。 We think this is because the prompt style made the model write too many programs within <work>, rather than getting things ready to run in a single program. 一般来说，我们发现较长的<作业>答案会导致在推理过程中出现错误的几率较高。

对于OneSmallStep，我们制作了50个问题集问题模板，并将问题中的变量随机化以获得更多提示示例。我们总结了下面提示的字段。

Field	Templates
Astronomy	2
Chemistry	7
Electronics	10
Mathematics	15
Physics	14
Statistics	2
Total	50

正如我们所看到的，多样性并不是很大，因此更多的标注可能会带来进一步的收益。

Lastly we wrote 921 examples, based off internet examples, in a <work> format for Workout. 这是我们最高质量的数据集，并且在数学、化学、生物学、天文学、物理学、地质学、历史等领域具有合理的多样性。这是我们希望在未来工作中扩展的数据集类型。

A.2 数据集去重

我们使用以下过程对语料库进行重复数据删除：

•

除了一些明确排除的数据源之外，我们在整个语料库中识别出 100 字节或更多（utf-8 文本）的相同跨度。我们使用 Lee 等人 (2022) 的存储库来完成此操作。
•

我们按预定顺序处理语料库文件，以对某些来源进行优先级排序。从代表跨文件的完全相同内容的一组跨度中，我们删除第一个文件中的跨度。如果相同的内容在单个文件中重复出现，并且之前在文件中未找到，则保留所有出现的内容。
•

我们合并最多 4 个字节分隔的重复跨度。
•

我们将结果跨度缩小到段落边界（即“\n\n”）。
•

我们从与跨度对应的文件中删除内容。

A.3 引文标识符删除

我们在下面报告了引文标识符消融的消融，其中我们测试了基于标题的标识符与字母数字标识符。

具体来说，我们从带有代码的论文中设置了数据集和方法名称的评估集。任务是根据给定的方法或数据集名称来预测引用，例如ResNet [START_REF]，其中目标是用于图像识别的深度残差学习，He。我们针对两种类型的消融处理训练了一个 67 亿的模型。方法和数据集结果如下所示。

	Citation Processing
	(a) Titles			(b) IDs
Method citations	Correct	Hallucinated	Incorrect	Correct	Hallucinated	Incorrect
$k=1$	13.8%	54.5%	31.7%	1.8%	3.5%	94.7%
2 $\leq k<5$	30.4%	38.6%	31.1%	9.3%	4.0%	86.7%
5 $\leq k<10$	36.3%	29.5%	34.2%	17.9%	0.0%	82.1%
10 $\leq k<25$	43.0%	15.8%	41.2%	38.8%	3.0%	58.2%
25 $\leq k<50$	53.4%	8.7%	37.9%	43.7%	0.0%	56.3%
50 $\leq k<100$	64.8%	9.9%	25.3%	60.6%	1.4%	38.0%
100 $\leq k<500$	64.6%	8.3%	27.1%	63.5%	1.0%	35.4%
$\geq 500$	78.6%	0.0%	21.4%	78.6%	0.0%	21.4%

表 26：引文处理消融。我们使用 67 亿个大小的模型来预测 PWC 方法数据集的引用情况。论文根据数据集中的引用（提及）数量进行分类。标题处理模型准确率较高，但产生幻觉的风险较大。该评估数据集中有 1,705 种方法。

	Citation Processing
	(a) Titles			(b) IDs
Dataset citations	Correct	Hallucinated	Incorrect	Correct	Hallucinated	Incorrect
$k=1$	1.4%	62.5%	36.1%	0.5%	11.5%	88.1%
$2\leq k<5$	5.0%	59.2%	35.8%	0.6%	10.2%	89.2%
$5\leq k<10$	15.4%	49.7%	34.8%	2.6%	6.2%	91.1%
$10\leq k<25$	25.7%	36.8%	37.5%	8.3%	4.8%	86.9%
$25\leq k<50$	44.6%	27.4%	28.0%	22.9%	7.0%	70.0%
$50\leq k<100$	58.6%	17.7%	23.6%	41.4%	7.7%	50.9%
$100\leq k<500$	65.5%	6.7%	27.8%	62.4%	3.1%	34.5%
$\geq 500$	81.8%	6.1%	12.1%	81.8%	3.0%	15.2%

表 27：引文处理消融。我们使用 67 亿个容量模型来预测 PWC Datasets 数据集的引用情况。该评估数据集中共有 4,735 个数据集。

A.4 120B 每个来源的验证损失

A.5 思想链与<工作>

我们使用 Chung 等人 (2022) 在 MMLU 验证集 (Hendrycks 等人, 2020) 上 PaLM 540B 的最新结果进行比较。虽然在两种方法中，使用推理和直接提示都会降低性能，但<work> 词符似乎更稳健。

Chain-of-Thought versus <work>
Subject	Examples	PaLM 540B CoT	GAL 30B <work>	GAL 120B <work>
Abstract Algebra	11	9.1%	27.3%	27.3%
Astronomy	16	7.1%	43.8%	25.0%
College Chemistry	8	12.5%	37.5%	37.5%
College Computer Science	11	9.1%	45.5%	54.6%
College Mathematics	11	0.0%	36.4%	18.2%
College Physics	11	36.4%	36.4%	45.5%
Econometrics	11	33.3%	33.3%	33.3%
Electrical Engineering	16	18.8%	37.5%	56.3%
Elementary Mathematics	41	24.4%	53.7%	58.5%
Formal Logic	9	0.0%	21.4%	21.4%
High School Chemistry	22	22.7%	27.3%	36.4%
High School Computer Science	9	33.3%	44.4%	44.4%
High School Mathematics	29	24.1%	31.0%	51.7%
High School Physics	17	11.8%	23.5%	29.4%
High School Statistics	23	26.1%	39.1%	56.5%
Machine Learning	11	18.2%	9.1%	27.3%
Overall	261	19.1%	35.9%	42.4%

表 28： <工作>与思想链。 PaLM 使用 CoT 5-shot 进行评估。 Galactica with the <work> 词符包含在训练前。此处的结果来自 MMLU dev，以便与 PaLM 进行比较。

BIG-bench
Benchmark	OPT 30B	OPT 175B	BLOOM 176B	GAL 30B	GAL 120B
Anachronisms	47.4%	49.1%	1.3%	47.0%	48.7%
Analogical Similarity	12.7%	19.8%	19.2%	17.0%	23.5%
Analytic Entailment	40.0%	52.9%	48.6%	47.1%	51.3%
Causal Judgment	53.7%	55.3%	54.7%	49.5%	51.1%
Crash Blossom	42.1%	36.8%	47.4%	42.1%	42.1%
Crass AI	20.5%	34.1%	31.8%	40.9%	52.3%
Dark Humor Detection	46.3%	48.8%	51.3%	48.8%	46.3%
Date Understanding	15.5%	21.1%	12.2%	11.4%	16.8%
Disambiguation QA	39.5%	44.6%	44.2%	46.9%	43.0%
Empirical Judgments	38.4%	52.5%	56.6%	50.5%	54.6%
English Proverbs	26.5%	20.6%	26.5%	26.5%	17.7%
Entailed Polarity	87.8%	88.5%	89.2%	89.2%	85.8%
Epistemic Reasoning	43.4%	43.5%	61.2%	40.1%	53.0%
Evaluating Information Essentiality	32.4%	19.1%	29.4%	25.0%	22.1%
Fantasy Reasoning	67.7%	69.2%	65.2%	66.7%	52.7%
Figure of Speech Detection	10.2%	13.6%	22.0%	13.6%	15.3%
General Knowledge	51.4%	78.6%	80.0%	68.6%	74.3%
GRE Reading Comprehension	6.5%	12.9%	22.6%	16.1%	35.5%
Hindu Knowledge	32.6%	42.3%	48.6%	36.6%	49.7%
Human Organs Senses	45.2%	57.1%	59.5%	71.4%	73.8%
Identify Odd Metaphor	27.7%	21.3%	19.2%	19.2%	27.7%
Implicatures	44.3%	49.6%	53.7%	59.4%	69.9%
Implicit Relations	22.4%	35.3%	28.2%	16.5%	25.9%
Intent Recognition	66.2%	79.2%	89.5%	87.8%	89.5%
Irony Identification	50.5%	49.5%	63.6%	60.6%	59.6%
Known Unknowns	50.0%	52.2%	50.0%	50.0%	41.3%
Logic Grid Puzzle	32.7%	31.6%	31.1%	35.8%	39.4%
Logical Args	18.8%	34.4%	25.0%	34.4%	43.8%
Logical Fallacy Detection	50.9%	54.9%	54.5%	54.1%	55.1%
Logical Sequence	38.5%	46.2%	30.8%	25.6%	43.6%
Mathematical Induction	60.9%	55.1%	52.2%	44.9%	58.0%
Metaphor Boolean	51.1%	57.5%	61.5%	63.4%	49.1%
Misconceptions	56.1%	57.5%	54.8%	51.6%	58.0%
Moral Permissibility	50.6%	54.4%	57.0%	52.3%	49.7%
Movie Recommendation	6.4%	52.6%	49.4%	31.6%	36.8%
Navigate	49.3%	49.8%	51.1%	50.9%	51.8%
Nonsense Words Grammar	28.0%	46.0%	48.0%	38.0%	48.0%
Novel Concepts	9.4%	12.5%	15.6%	6.3%	9.4%
Odd One Out	30.2%	26.7%	22.1%	12.8%	19.8%
Penguins in a Table	29.5%	32.9%	28.2%	40.9%	36.9%
Phrase Relatedness	45.0%	51.0%	55.0%	53.0%	64.0%
Physical Intuition	39.5%	42.0%	37.0%	55.6%	58.0%
Physics	39.3%	42.8%	54.2%	55.9%	65.5%
Presuppositions as NLI	36.6%	36.2%	39.6%	34.0%	28.0%
Question Selection	39.8%	42.1%	5.2%	41.1%	42.7%
Reasoning about Colored Objects	33.9%	38.7%	40.5%	45.8%	55.0%
Riddle Sense	40.8%	57.1%	44.9%	46.9%	42.9%
Ruin Names	19.4%	20.8%	12.5%	24.1%	33.0%
Sentence Ambiguity	63.3%	60.0%	65.0%	60.0%	66.7%
Similarities Abstraction	21.1%	22.4%	27.6%	21.1%	13.2%
Snarks	42.0%	41.4%	47.0%	48.1%	48.6%
Sports Understanding	50.0%	48.8%	54.5%	52.0%	51.8%
StrategyQA	56.1%	58.5%	57.1%	53.9%	53.7%
Temporal Sequences	31.4%	28.4%	20.5%	26.4%	21.2%
Timedial	15.3%	22.2%	24.4%	39.9%	40.8%
Understanding Fables	20.1%	19.6%	24.9%	28.0%	20.1%
Winowhy	37.2%	39.7%	38.0%	56.5%	56.4%
Average (weighted)	39.6%	43.4%	42.6%	46.6%	48.7%
Average (unweighted)	32.8%	42.7%	42.2%	42.7%	45.3%

表 29：大基准结果。即使在较小的规模下，卡拉狄加的性能也超过了一般模型。

A.6提示预训练数据集

我们在下面报告预训练中包含的提示数据集。

Data source	Split	Prompts	Tokens
MedMCQA (Pal et al., 2022)	train	180,894	13,311,290
RACE (Xu et al., 2017)	train	29,502	12,160,390
Quoref (Dasigi et al., 2019)	train	19,206	10,361,335
ROPES (Lin et al., 2019)	train	10,815	2,672,195
BioASQ7 task b (Nentidis et al., 2021)	train	2,676	1,288,462
TQA (Kembhavi et al., 2017)	train	8,566	1,856,473
BoolQ (Clark et al., 2019)	train	9,333	1,224,335
SciQ (Welbl et al., 2017)	train	10,346	1,397,668
QASC (Khot et al., 2020)	train	8,053	930,414
CommonSenseQA (Talmor et al., 2018)	train	9,644	660,750
OpenBookQA (Mihaylov et al., 2018)	train	4,908	324,995
QCScience (V et al., 2021)	train	2,417	209,803
PubMedQA (Jin et al., 2019)	train	495	186,304
QASPER (Dasigi et al., 2021)	train	606	105,985
UChallenge (new)	train	346	29,308
TrueOrFalse (new)	train	107	2,854

表 30： Naturebook 中使用的问答提示

Data source	Split	Prompts	Tokens
JNLPBA (Kim et al., 2004)	train	91,213	5,262,723
BC4CHEMD (Krallinger et al., 2004)	train	30,234	1,756,929
ChemProt (Taboureau et al., 2011)	train	3,030	1,286,816
BC2GM (Smith et al., 2008)	train	12,375	704,357
S800 (Pafilis et al., 2013)	train	5,318	281,448
BC5CDR Chem (Li et al., 2016)	train	4,503	241,729
BC5CDR Disease (Li et al., 2016)	train	4,498	231,322
MethodNet (new)	train	659	167,904
Scientific Entities (new)	train	305	97,935

表31： Naturebook 中使用的实体提取提示

Data source	Split	Prompts	Tokens
PWC Desc (new)	train	3,586	9,663,419
SciTail (Khot et al., 2018)	train	23,361	1,383,614
Fragmented Glass (new)	train	718	867,985
SciTLDR (Cachola et al., 2020)	train	1,973	472,169

表32： Naturebook 中使用的摘要提示

Data source	Split	Prompts	Tokens
Wizard of Wikipedia (Dinan et al., 2018)	train	18,246	4,466,113
Advising (Gunasekara et al., 2019)	train	495	147,793

表33： Naturebook 中使用的对话框提示

Data source	Split	Prompts	Tokens
BACE Classification	train	1,198	122,699
BACE Regression	train	1,198	154,656
BBBP	train	1,613	115,916
ClinTox	train	1,171	100,955
Delaney	train	893	62,083
FreeSolv	train	508	29,542
HIV	train	32,572	2,308,966
HOPV	train	2,217	333,620
Lipo	train	3,327	362,342
PCBA	train	714,277	553,645,656
QM7	train	5,416	320,199
QM8	train	275,569	27,163,516
QM9	train	1,259,090	128,427,073
SAMPL	train	508	1,259,090
SIDER	train	30,499	2,741,904
Thermosol	train	1,396	139,481
Tox21	train	73,883	54,224,093

表34： Naturebook 中使用的化学性质预测提示

A.6.1 化学性质预测

我们使用 17,052 种化合物的验证集设置了化学和物理性质的预测任务。我们使用 PubChem 文档结构来设计提示。我们在图 24 中展示了 XLogP 的示例。

图 24：化学性质提示。我们根据 PubChem 文档格式设计了一个提示。使用这种提示风格，我们测试了模型从 SMILES 序列中学习化学和物理特性的能力。

我们在表 35 中报告结果。随着规模的扩大，误差相当平稳地减小，这表明自监督学习正在文档内发生，从 SMILES 到化学和物理特性。但 120B 的值逐渐减少，这表明可能需要更多的分子数据。

Chemical and Physical Property Prediction
Model	Param (bn)	Mol. Weight	XLogP	Rotatable Bond #	Topological PSA
GAL 125M	0.1	101.43	1.638	4.389	36.63
GAL 1.3B	1.3	101.05	1.413	3.930	41.11
GAL 6.7B	6.7	81.76	1.197	2.932	30.01
GAL 30B	30	77.46	1.101	3.534	29.54
GAL 120B	120	86.57	1.131	3.474	28.84

表 35：化学和物理性质预测。所有结果均以 RMSE 形式报告。预测误差通常随着规模的增加而减小，这表明卡拉狄加可以从微笑中推断出属性。

A.6.2 对接回归

我们简要介绍了对接分数回归任务（García-Ortegón 等人，2022）。这里的任务是根据靶标和配体预测对接分数。就卡拉狄加而言，我们使用文本格式来表示此信息。图25显示了一个示例。我们在表 36 中报告结果。

图 25： DockSTRING 格式。为了构建训练集，我们采用蛋白质靶标和配体序列，提出自然语言问题，并将对接分数作为答案。

Docking Regression
Model	Param (bn)	ESR2	F2	KIT	PARP1	PGR
GAL 125M	0.1	-12.4	-6.09	-6.73	-1.69	-12.4
GAL 1.3B	1.3	-0.293	0.591	0.063	0.728	-1.72
GAL 6.7B	6.7	-0.216	0.694	0.290	0.681	-0.894
GAL 30B	30	-0.186	0.679	0.313	0.732	-0.468
GAL 120B	120	-0.564	0.626	0.249	0.732	-0.960

表36： DockSTRING 结果。显示的指标为

R^{2}

。

对于其中三个目标，卡拉狄加能够仅通过查看序列来进行推断，并且性能从 1.3B 参数开始扩展。然而，卡拉狄加并没有解决ESR2和PGR这两个更难的目标。这暗示了文本表示的局限性，并且可能表明需要更多的几何信息才能以合理的数据效率解决任务。

A.6.3MMLU 的其余部分

我们报告以下其他领域的社会科学和结果：

Subject	OPT	BLOOM	Gopher	Chinchilla	GAL 30B	GAL 120B
Anatomy	28.9%	37.0%	56.3%	70.4%	54.1%	58.5%
Business Ethics	31.0%	36.0%	70.0%	72.0%	42.0%	48.0%
Clinical Knowledge	21.9%	29.8%	67.2%	75.1%	57.7%	59.2%
Computer Security	32.0%	34.0%	65.0%	76.0%	65.0%	67.0%
Conceptual Physics	34.9%	36.6%	49.4%	67.2%	43.4%	50.6%
Global Facts	23.0%	32.0%	38.0%	39.0%	32.0%	35.0%
High School European History	6.7%	4.8%	72.1%	78.8%	60.6%	67.3%
High School Geography	26.3%	38.9%	76.8%	86.4%	58.1%	63.6%
High School Gov. & Politics	32.6%	30.6%	83.9%	91.2%	58.5%	61.7%
High School Macroeconomics	36.2%	23.1%	65.1%	70.5%	40.5%	46.4%
High School Microeconomics	32.8%	27.3%	66.4%	77.7%	49.2%	55.9%
High School Psychology	25.5%	36.9%	81.8%	86.6%	68.8%	74.3%
High School US History	9.3%	11.8%	78.9%	83.3%	51.5%	58.3%
High School World History	30.0%	29.1%	75.1%	85.2%	63.7%	71.7%
Human Aging	35.0%	34.5%	66.4%	77.6%	55.2%	59.2%
Human Sexuality	26.0%	33.6%	67.2%	86.3%	56.5%	58.8%
International Law	33.1%	41.3%	77.7%	90.9%	64.4%	71.1%
Jurisprudence	0.0%	0.0%	71.3%	79.6%	47.2%	53.7%
Logical Fallacies	28.2%	28.2%	72.4%	80.4%	47.2%	59.5%
Management	25.2%	27.2%	77.7%	82.5%	60.2%	63.1%
Marketing	32.5%	41.0%	83.3%	89.7%	70.5%	76.5%
Miscellaneous	31.5%	37.7%	75.7%	84.5%	54.0%	63.9%
Moral Disputes	28.2%	32.7%	66.8%	77.5%	50.3%	56.6%
Moral Scenarios	25.4%	24.4%	40.2%	36.5%	24.1%	24.2%
Nutrition	30.4%	32.4%	69.9%	77.1%	63.1%	67.3%
Philosophy	29.9%	31.5%	68.8%	79.4%	52.4%	54.7%
Prehistory	36.7%	36.1%	67.6%	81.2%	52.2%	59.6%
Professional Accounting	29.8%	28.7%	44.3%	52.1%	31.2%	40.0%
Professional Law	30.3%	25.5%	44.5%	56.5%	34.6%	36.0%
Professional Medicine	27.9%	25.4%	64.0%	75.4%	52.2%	59.6%
Professional Psychology	32.7%	33.3%	68.1%	75.7%	50.5%	56.5%
Public Relations	34.5%	30.0%	71.8%	73.6%	44.5%	53.6%
Security Studies	35.1%	29.8%	64.9%	75.9%	46.5%	57.1%
Sociology	26.4%	29.9%	84.1%	91.0%	65.7%	72.6%
US Foreign Policy	44.0%	37.0%	81.0%	92.0%	64.0%	75.0%
Virology	30.7%	28.3%	47.0%	53.6%	44.6%	48.2%
World Religion	43.9%	41.5%	84.2%	87.7%	44.4%	64.9%

表37： MMLU 的其余部分。语料库 Delta 效应在非 STEM 科目中尤其明显，其中卡拉狄加落后于 Chinchilla 和 Gopher 的表现。

A.7 进一步的训练数据集详细信息

A.7.1 玻璃碎片

我们编制一份科学实体列表，检索每个科学实体的片段，并根据检索到的片段编写该实体的描述。这可以被认为是一个总结任务。我们还编写了没有任何检索片段的真实描述。

A.7.2方法网

我们编译机器学习摘要并预测论文中介绍的新方法。

A.7.3PWC 描述

对于机器学习中的数据集和方法的列表，我们从介绍论文中检索每个数据集和方法的片段，并根据检索到的片段编写摘要描述。

A.7.4核糖体

我们使用 Expasy⁶⁶6https://web.expasy.org/translate/ 创建人类基因组蛋白质编码部分的核苷酸序列和蛋白质序列之间的配对翻译集。

A.7.5S2

由于质量问题，某些领域的论文被忽略：心理学、商业、艺术、经济学、地理、历史、政治学、哲学和社会学。含有“法律”、“历史”、“政治”、“商业”、“宗教”等字样的期刊论文也被忽略。对于 S2，我们还排除了来自低影响力期刊的论文。 S2 数据集中每个期刊的大致影响因子是通过计算该期刊中的论文数量以及这些论文收到的引用次数来计算的。如果影响因子近似 $<1$ ，则该期刊的论文将被忽略。非英语论文将被忽略。其中一些限制可能会在未来的工作中得到放松。

A.7.6 科学实体

对于学术论文摘要的随机样本，我们预测摘要中提到的科学实体。

A.7.7StackExchange

我们包括以下来源的问题和答案：学术、人工智能、arduino、天文学、航空、生物信息学、生物学、化学、国际象棋、cogsci、计算机图形学、cs、cseducators、cstheory、数据科学、dsp、地球科学、经济学、电子、工程、 hardwarerecs、health、hsm、数学、matheducators、mathematica、mathoverflow、/mechanics、网络工程或、物理、令人费解、定量、量子计算、逆向计算、逆向工程、机器人、scicomp、软件工程、softwarerecs、声音、空间、统计。

A.7.8 正确或错误

我们包含 107 个判断题，以提高此类问题的零样本性能。

A.7.9 UC挑战

我们包含 346 个大学级别的科学问题的自由形式问答；这是闭卷问答的一种形式（而不是多项选择）。

A.8评估数据集示例

A.8.1 氨基探针

A.8.2 星系团

A.8.3 矿物组

A.8.4重复数据删除结果

阅读文献时我们担心的问题之一是，考虑到所使用的大量语料库，MMLU 结果缺乏数据泄漏分析。继 Brown 等人 (2020) 之前的工作之后，我们搜索训练集和测试集之间的 n 元匹配。我们选择从测试集中删除训练集中出现的任何 13 克匹配，并报告删除这些冲突示例之前和之后的分数。结果显示在背面。

	score_before	score_after	count_before	count_after
abstract_algebra	33.0%	32.32%	100	99
anatomy	58.52%	58.95%	135	134
astronomy	65.13%	64.67%	152	150
business_ethics	48.0%	48.0%	100	100
clinical_knowledge	59.24%	59.24%	265	265
college_biology	68.75%	69.23%	144	143
college_chemistry	46.0%	46.46%	100	99
college_computer_science	49.0%	48.98%	100	98
college_mathematics	43.0%	45.26%	100	95
college_medicine	57.23%	57.74%	173	168
college_physics	42.16%	42.27%	102	97
computer_security	67.0%	67.35%	100	98
conceptual_physics	50.64%	50.85%	235	234
econometrics	42.11%	42.11%	114	114
electrical_engineering	62.76%	62.76%	145	145
elementary_mathematics	38.10%	38.10%	378	378
formal_logic	32.54%	32.54%	126	126
global_facts	35.0%	35.05%	100	97
high_school_biology	69.35%	69.61%	310	306
high_school_chemistry	47.78%	47.78%	203	203
high_school_computer_science	70.0%	70.0%	100	100
high_school_european_history	67.27%	66.17%	165	133
high_school_geography	63.63%	63.63%	198	198
high_school_government_and_politics	61.66%	61.46%	193	192
high_school_macroeconomics	46.41%	46.53%	390	389
high_school_mathematics	32.59%	32.58%	270	267
high_school_microeconomics	55.88%	55.88%	238	238
high_school_physics	33.77%	33.77%	151	151
high_school_psychology	74.31%	74.26%	545	544
high_school_statistics	41.20%	41.20%	216	216
high_school_us_history	58.33%	58.59%	204	99
high_school_world_history	71.73%	72.04%	237	186
human_aging	59.19%	59.19%	223	223
human_sexuality	58.78%	58.78%	131	131
international_law	71.07%	71.07%	121	121
jurisprudence	53.70%	53.70%	108	108
logical_fallacies	59.51%	59.26%	163	162
machine_learning	38.39%	36.54%	112	104
management	63.11%	63.11%	103	103
marketing	76.50%	76.50%	234	234
medical_genetics	68.0%	67.68%	100	99
miscellaneous	63.86%	63.81%	783	782
moral_disputes	56.65%	56.52%	346	345
moral_scenarios	24.24%	24.24%	895	895
nutrition	67.32%	67.32%	306	306
philosophy	54.66%	54.52%	311	310
prehistory	59.57%	59.57%	324	324
professional_accounting	40.07%	39.86%	282	281
professional_law	36.05%	36.05%	1534	1534
professional_medicine	59.56%	59.63%	272	270
professional_psychology	56.54%	56.54%	612	612
public_relations	53.63%	53.63%	110	110
security_studies	57.14%	57.14%	245	245
sociology	72.64%	73.0%	201	200
us_foreign_policy	75.0%	75.76%	100	99
virology	48.19%	48.48%	166	165
world_religions	64.91%	64.91%	171	171

A.8.5 卡拉狄加撰写的维基百科文章示例

A.8.6 卡拉狄加撰写的文献调查示例

A.8.7 卡拉狄加撰写的示例讲义

A.8.8 对不起，弗兰克，我想你错过了

如果人工智能要帮助我们探索宇宙，我们需要它具备基本的国际象棋能力来缓解无聊——考虑到超光速旅行是不可能的。

Srivastava 等人 (2022) 的 BIG-bench 任务套件有一个将死检测的基准。为了好玩，我们制作了 20,000 个公共国际象棋游戏的数据集，并使用 python-chess 库将它们转换为 ASCII 国际象棋⁷⁷7https://python-chess.readthedocs.io/en/latest/。我们在预训练语料库中包含了 19,426 个游戏（其余用于验证）。我们还记录了玩家的 ELO 评分。示例文档如下所示：

为了进行评估，我们将一合一棋盘转换为 ASCII 并提示走棋。结果如下所示。

Model	Accuracy
GAL 125M	0.54%
GAL 1.3B	0.43%
GAL 6.7B	1.77%
GAL 30B	1.29%
GAL 120B	3.03%

表 38：一刀切结果。显示的指标是准确性。

虽然这代表了其他大型语言模型的最先进水平⁸⁸8https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/checkmate_in_one，显然这个问题还需要做更多的工作。