卡拉狄加:大型科学语言模型

Ross Taylor &Marcin Kardas &Guillem Cucurull Thomas Scialom &Anthony Hartshorn &Elvis Saravia Andrew Poulton &Viktor Kerkez &Robert Stojnic
Meta AI
摘要

信息超载是科学进步的主要障碍。 科学文献和数据的爆炸性增长使得从大量信息中发现有用的见解变得越来越困难。 如今,科学知识可以通过搜索引擎获取,但它们无法单独组织科学知识。 在本文中,我们介绍了卡拉狄加:一种可以存储、组合和推理科学知识的大型语言模型。 我们使用大量论文、参考资料、知识库和许多其他来源的科学资料库进行训练。 我们在一系列科学任务上都优于现有模型。 在 LaTeX 方程等技术知识探索中,Galatica 的性能优于最新的 GPT-3,分别为 68.2% 和 49.0%。 Galatica 在推理方面也表现出色,在数学 MMLU 上比 Chinchilla 高出 41.3% 比 35.7%,在 MATH 上比 PaLM 540B 高出 20.4% 对 8.8%。 它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了新的最先进水平,分别为 77.6% 和 52.9%。 尽管没有在通用语料库上进行训练,但卡拉狄加在 BIG-bench 上的表现优于 BLOOM 和 OPT-175B。 我们相信这些结果证明了语言模型作为新的科学接口的潜力。 我们将模型开源,以造福科学界111galactica.org

1简介

计算的最初承诺是解决科学中的信息过载问题。 万尼瓦尔·布什 (Vannevar Bush) 在 1945 年的文章“正如我们所想”中观察到“出版的范围远远超出了我们目前真正利用记录的能力”(Bush,1945) 他提出将计算机作为管理不断增长的信息山的解决方案。 利克莱德对此进行了扩展,提出了人类与机器之间共生关系的愿景。 计算机将负责存储和检索等日常任务,“为科学思维中的见解和决策铺平道路”(Licklider,1960)

计算确实彻底改变了研究的进行方式,但信息过载仍然是一个巨大的问题(Bornmann 和 Mutz,2014) 2022 年 5 月,平均每天向 arXiv 提交 516 篇论文(arXiv,2022) 除了论文之外,科学数据的增长速度也远远快于我们处理数据的能力(Marx,2013) 截至 2022 年 8 月,NCBI GenBank 包含 1.49×1012 个核苷酸碱基 (GenBank,2022) 由于信息量巨大,一个人不可能读完某个领域的所有论文;组织有关基本科学现象的数据同样具有挑战性。

搜索引擎是当前遵循 Licklider 范式访问科学知识的界面。 但它们并不直接组织知识,而是指向组织文献和数据的二级层,例如 Wikipedia、UniProt 和 PubChem Compound。 这些资源需要昂贵的人类贡献,例如撰写文献综述、百科全书文章或注释蛋白质。 考虑到这一瓶颈,即使拥有强大的搜索工具,研究人员仍然感到不知所措。

在本文中,我们主张通过大型语言模型找到更好的方法。 与搜索引擎不同,语言模型可以存储、组合和推理科学知识。 例如,根据文献训练的模型可能会发现不同研究之间隐藏的联系,发现隐藏的宝石,并将这些见解浮出水面。 它可以通过自动生成辅助内容来综合知识:例如文献评论、百科全书文章、讲座笔记等。 最后,它可以组织不同的模式:将论文与代码连接、将蛋白质序列与化合物连接、将理论与 LaTeX 连接等等。 我们的最终愿景是为科学任务提供支持的单一神经网络。 我们相信这将成为人类获取科学知识的下一个界面,我们从这篇论文开始。

1.1 我们的贡献

我们引入了一种新的大型语言模型,称为卡拉狄加(GAL),用于自动组织科学。 卡拉狄加接受了大量精心策划的人类科学知识库的训练。 其中包括超过 4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质、科学网站、百科全书等。 与现有的语言模型不同,现有的语言模型依赖于未经策划的基于爬行的范例,我们的语料库是高质量且经过精心策划的。 我们能够在多个时期对其进行训练而不会过度拟合,其中上游和下游性能通过使用重复的 Token 得到改善。

数据集设计对于我们的方法至关重要,其中包括策划高质量的数据集和设计与知识体系交互的界面。 所有数据都以通用的降价格式进行处理,以混合来源之间的知识。 我们还在预训练中包含特定于任务的数据集,以促进将这些知识组合到新的任务上下文中。 对于界面,我们使用特定于任务的标记来支持不同类型的知识。 我们使用特殊的词符处理引文,使研究人员能够在给定任何输入上下文的情况下预测引文。 我们将逐步推理包装在一个特殊的词符中,模仿内部工作记忆。 最后,我们将微笑和蛋白质序列等模式包装在特殊的标记中,这允许研究人员使用自然语言与它们进行交互。 借助该界面和模型中的科学知识体系,我们在许多科学任务中取得了最先进的结果。

在推理任务上,卡拉狄加在 MMLU 和 MATH 等基准测试中击败了现有语言模型(Hendrycks 等人,2020,2021) 通过我们的推理词符方法,我们在数学 MMLU 上的表现优于 Chinchilla,平均得分为 41.3% 对 35.7%(Hoffmann 等人,2022) 我们的 120B 模型在 MATH 上取得了 20.4% 的成绩,而 PaLM 540B 的成绩为 8.8%(Chowdhery 等人,2022;Lewkowycz 等人,2022) 30B 模型在这项任务上也击败了 PaLM 540B,参数减少了 18 倍。 我们相信,这为深度学习工具包增加了另一种推理方法,以及最近得到充分探索的现有思维链方法(Wei等人,2022;Suzgun等人,2022)

我们还发现卡拉狄加在知识密集型科学任务中表现强劲。 我们对卡拉狄加的方程知识、化学反应知识和其他科学知识进行了详细的知识探索。 Galoida 在这些任务中显着超过了通用语言模型(例如最新的 GPT-3)的性能;在 LaTeX 方程上,它的得分为 68.2%,而最新 GPT-3 的得分为 49.0% (Brown 等人, 2020) Galoida 在下游科学任务中也表现出色,我们在 PubMedQA (77.6%) 和 MedMCQA dev (52.9%) 等几个下游任务上设定了新的 state-of-the-art (Jin 等人, 2019; Pal等人,2022)

我们还展示了卡拉狄加界面的新功能。 首先,预测引文的能力随着规模的扩大而平稳提高,我们还发现该模型在建模引文的基本分布方面变得更好:经验分布函数随着规模的扩大而接近参考分布。 重要的是,我们发现这种方法优于用于引文预测的稀疏和密集检索方法。 这与其他结果一起证明了语言模型以其权重记忆中的上下文关联能力取代 Licklider 范式、文档存储和检索的潜力。

此外,卡拉狄加还可以执行涉及 SMILES 化学公式和蛋白质序列的多模式任务。 我们将药物发现任务制定为文本提示,并在弱监督设置中显示性能尺度。 我们还证明卡拉狄加以自我监督的方式学习 IUPAC 名称预测等任务,并通过关注功能组等可解释的属性来实现这一点。 最后,卡拉狄加可以用自然语言注释蛋白质序列,包括预测功能关键字。

《卡拉狄加》用于帮助撰写本文,包括推荐缺失的引文、引言和相关工作中讨论的主题、推荐进一步的工作以及帮助撰写摘要和结论。

2相关工作

大型语言模型(大语言模型)

近年来,大语言模型在NLP任务上取得了突破性的表现。 模型在大型通用语料库上进行自我监督训练,并且在数百项任务上表现良好(Brown 等人,2020;Rae 等人,2021;Hoffmann 等人,2022;Black 等人,2022;Zhang 等人,2022;乔杜里等人,2022) 这包括科学知识任务,例如 MMLU (Hendrycks 等人, 2020) 他们有能力通过少样本学习来进行情境学习(Brown 等人,2020) 能力集随着规模的扩大而增加,最近的工作强调了更大范围内的推理能力和适当的提示策略(Wei等人,2022;Chowdhery等人,2022;Kojima等人,2022;Lewkowycz等人,2022)

自我监督的缺点之一是转向未经整理的数据。 模型可能会反映语料库中的错误信息、刻板印象和偏见(Sheng 等人,2019;Kurita 等人,2019;Dev 等人,2019;Blodgett 等人,2020;Sheng 等人,2021) 这对于重视真理的科学任务来说是不可取的。 未经整理的数据还意味着更多的 Token 对于目标用例来说转移价值有限;浪费计算预算。 例如,PaLM 语料库中有 50% 是社交媒体对话,这可能限制了向科学任务的转移(Chowdhery 等人,2022) 科学文本的属性也不同于一般文本 - 例如科学术语和数学 - 这意味着通用语料库和标记器可能效率低下。 我们探讨了数据集选择的规范方法是否可以与这项工作中的大型模型范例一起使用。

科学语言模型

SciBERT、BioLM 等作品已经展示了精心策划的科学语料库 的好处(Beltagy 等人,2019;Lewis 等人,2020a;Gu 等人,2020;Lo 等人,2019b;Gu 等人, 2020; Shin 等人, 2020; Hong 等人, 2022) 数据集和模型的规模和范围通常都很小,远小于通用模型的语料库222较大的语料库 S2ORC 拥有 <2010 亿个 Token ,而 GPT-3 和 PaLM 的语料库则拥有 30010 亿个 Token Token 。 ScholarBERT 拥有非常大的语料库,包含 2000 亿个 Token ,但模型容量很小,只有 770M。. 除了科学文本之外,蛋白质序列和 SMILES 的 Transformers 也显示出学习自然表征的潜力(Rives 等人,2021;Honda 等人,2019;Irwin 等人,2021;Nijkamp 等人,2022;Lin 等人,2022b ) 然而,像 SMILES 这样的序列在表示化学结构方面具有描述性限制。 我们在这项工作中探讨了大型多模态科学语料库是否可以帮助表征学习,其中序列在信号密集的环境中与足迹和文本一起出现。

缩放法则

“缩放定律”的想法由 Kaplan 等人 (2020) 提出,他证明了损失随着模型大小、数据集大小和训练计算量呈幂律缩放的证据。 重点是上游的困惑,Tay 等人 (2022a) 的研究表明,这并不总是与下游绩效相关。 Hoffmann 等人 (2022) 提出了考虑最佳数据量的新分析,并表明现有语言模型训练不足:“Chinchilla 缩放法则”。 这项工作没有考虑新的与重复的标记。 在这项工作中,我们表明我们可以通过重复标记的训练来提高上游和下游性能。

作为知识库的语言模型

在权重中存储信息更不可靠,因为模型可能会将信息混合在一起,幻觉,但它更“灵活”,因为它可以通过表示空间关联信息,关联. 尽管存在幻觉风险,但有证据表明大型语言模型可以充当具有足够容量的隐性知识库(Petroni等人,2019) 它们在没有外部检索机制的情况下,在常识知识(TriviaQA)和专业知识(MMLU)等知识密集型任务上表现良好(Brown等人,2020;Hendrycks等人,2020)

如何更新网络知识的问题仍然是一个活跃的研究问题(Scialom等人,2022;Mitchell等人,2022) 同样,如何提高发电的可靠性也是一个活跃的问题(高等人,2022) 尽管存在这些限制,随着经验的增加,今天的大型模型将变得更便宜(Hirschmann,1964),因此随着训练和再训练成本的下降,越来越多的科学知识将进入重量记忆。 在这项工作中,我们进行了探索,以调查卡拉狄加的知识深度,并表明吸收科学知识的能力随着规模的扩大而平稳提高。

检索增强模型

检索增强模型旨在减轻权重记忆的缺点。 此类模型的示例包括 RAG、RETRO 和 Atlas (Lewis 等人, 2020b; Borgeaud 等人, 2021; Izacard 等人, 2022) 这些模型的优点是需要较少的容量,但缺点是需要支持检索基础设施。 由于知识通常是细粒度的,例如特定蛋白质的序列或特定系外行星的特征,即使对于更大的模型,将来也可能需要检索。 在这项工作中,我们关注的是仅使用模型权重可以走多远,但我们注意到使用检索增强来进行该主题的未来研究的有力案例。

3数据集

Modality Entity Sequence
Text
Abell 370
Abell 370 is a cluster...
[Uncaptioned image]
Schwarzschild radius
r_{s} = \frac{2GM}{c^2}
[Uncaptioned image]
Code
Transformer
class Transformer(nn.Module)
[Uncaptioned image]
SMILES
Glycine
C(C(=O)O)N
[Uncaptioned image]
AA Sequence
Collagen α-1(II) chain
MIRLGAPQTL..
[Uncaptioned image]
DNA Sequence
Human genome
CGGTACCCTC..
[Uncaptioned image]
表格1: 标记自然 卡拉狄加训练代表科学现象的文本序列。
Total dataset size = 106 billion tokens
Data source Documents Tokens Token %
Papers 48 million 88 billion 83.0%
Code 2 million 7 billion 6.9%
Reference Material 8 million 7 billion 6.5%
Knowledge Bases 2 million 2 billion 2.0%
Filtered CommonCrawl 0.9 million 1 billion 1.0%
Prompts 1.3 million 0.4 billion 0.3%
Other 0.02 million 0.2 billion 0.2%
表2: 卡拉狄加语料库 这些来源的完整细目包含在附录中。

“自然写在我们眼前的那本伟大的书中——我指的是宇宙——但如果我们不首先学习语言并掌握它所写的符号,我们就无法理解它。”



伽利略·伽利莱,试金者

可以通过底层语言来理解自然的想法有着悠久的历史(Galilei,1623;Wigner,1959;Wheeler,1990) 近年来,深度学习被用来表示自然,例如蛋白质和分子(Jumper等人,2021;Ross等人,2021) 氨基酸是书写蛋白质结构语言的字母表,而原子和键是分子语言。 在更高层面上,我们通过自然语言来组织知识,很多作品都接受了科学文本的训练(Beltagy等人,2019;Lewis等人,2020a;Gu等人,2020;Lo等人,2019b). 借助卡拉狄加,我们在大型科学语料库上训练单个神经网络来学习不同的科学语言。

我们的语料库由来自论文、参考资料、百科全书和其他科学来源的 106 十亿个 Token 组成。 我们将自然语言源(例如论文和教科书)与自然序列(例如蛋白质序列和化学式)结合起来。 我们处理,我们可以捕获它,并且还包括捕获计算科学的学术代码。 我们在表 12 中突出显示语料库详细信息。 完整的详细信息,包括数据集组件和过滤逻辑,包含在附录中。

值得注意的是,与其他更大且未经整理的大语言模型语料库相比,该数据集较小且经过整理。 这是这项工作的一个关键问题:我们能否基于精心策划的规范范式制作一个有效的大语言模型? 如果属实,我们可以通过清楚地了解进入语料库的内容来设计更有针对性的大语言模型,类似于具有规范标准的专家系统(Jackson,1990)

3.1 标记化

[START_AMINO]MIRLGAPQTLVLLTLLVAAVLRCQGQDVQEAGSCVQDGQRYNDKDVWKPEPCRICVCDTG...[END_AMINO]
Summary Protein: Collagen alpha-1(II) chain Gene: COL2A1 Organism: Homo sapiens (Human) Status: evidence at protein level Function Type II collagen is specific for cartilaginous tissues. It is essential for the normal embryonic development of the skeleton, for linear growth and for the ability of cartilage to resist compressive forces. [START_REF]Nucleotide sequence of the full length cDNA encoding for human type II procollage, Lee[END_REF] Features - Domain, 32-90, Cleavage; by procollagen N-endopeptidase - Site Cleavage, 181-182, Cleavage; by procollagen N-endopeptidase - Binding site, 1301, Ca2+
图1: 多模态数据 蛋白质序列与 UniProt 的注释、文本和引文一起出现在文档上下文中。 为了清晰起见,对文档的全部内容进行了删减。

鉴于存在不同的模式,标记化是数据集设计的重要组成部分。 例如,蛋白质序列是根据氨基酸残基编写的,其中基于字符的标记化是合适的。 为了实现专用标记化的目标,我们针对不同的模式使用专用标记:

  1. 1.

    引文:我们用特殊的参考标记[START_REF][END_REF]包装引文。

  2. 2.

    分步推理:我们用工作记忆词符 <工作>包装分步推理,模仿内部工作记忆语境。

  3. 3.

    数学:对于数学内容,无论有没有 LaTeX,我们都将 ASCII 操作拆分为单个字符。 括号被视为数字。 其余操作允许不分割的重复。 操作符为!"#$%&'*+,-./:;<=>?\^_'|,括号为()[]{}

  4. 4.

    数字:我们将数字分成单独的标记。 例如 737612.62 -> 7,3,7,6,1,2,.,6,2

  5. 5.

    SMILES 公式:我们用 [START_SMILES][END_SMILES] 包装序列并应用基于字符的标记化。 同样,我们使用 [START_I_SMILES][END_I_SMILES] 来表示异构 SMILES。 例如,C(C(=O)O)N C,(,C,(,=,O,),O,),N.

  6. 6.

    氨基酸序列:我们用 [START_AMINO][END_AMINO] 包装序列并应用基于字符的标记化,将每个氨基酸字符视为一个单词符。 例如,MIRLGAPQTL -> M、I、R、L、G、A、P、Q、T、L

  7. 7.

    DNA 序列:我们还应用基于字符的标记化,将每个核苷酸碱基视为词符,其中起始标记为 [START_DNA][END_DNA] 例如,CGGTACCCTC -> C、G、G、T、A、C、C、C、T、C

我们在下面介绍了一些在文献中没有明显相似之处的专门词符方法,特别是工作记忆和引文标记。

3.1.1 Working Memory 词符,<工作

基于 Transformer 的架构缺乏明确的工作记忆能力,这意味着单前向传递的功效有限。 对于需要多个计算步骤的任务来说,这是有问题的。 当前的解决方法是使用 Transformer 的输出上下文作为外部工作内存进行读取和写入。 这可以在最近关于思想链提示的研究中看到(Wei 等人,2022;Suzgun 等人,2022) 从某种意义上说,这是直观的,因为人类还可以通过便签本来增强有限的工作记忆。 从另一种意义上说,我们希望模型能够像人类一样在内部完善其表示;例如心算。

Refer to caption
图2: 给定一个类似“43、29、51、13 的平均值是多少?”的任务。人类可以使用内部或外部工作记忆。 在实践中,他们会共生地使用两者;这意味着以文本形式写下的锻炼通常“缺少”内部执行的一些步骤。

思维链有两个局限性。 首先,它依靠提示发现来找到引发稳健的逐步推理的提示;即最大限度地减少单次前传中过多操作所造成的错误。 这不仅需要找到适用于所有情况的强大提示,而且通常还依赖于占用上下文空间的少量样本示例。 更糟糕的是,互联网上的许多分步推理都错过了人类使用内部记忆执行的中间步骤。 人类不会写下他们执行的每一步,因为这会导致冗长乏味的答案。 他们写下推理的主要步骤,并通过内部工作记忆执行较低级别的步骤。 这意味着书面文本中存在“丢失数据”,即在书面步骤之间存在未明确说明的内部存储器步骤。

其次,思想链提示使用神经网络来执行可能不是最适合执行的任务;例如算术。 先前的研究表明,乘法等任务的准确性与术语频率成正比(Razeghi 等人,2022) 鉴于经典计算机专门用于算术等任务,一种策略是将这些任务从神经网络卸载到外部模块。 例如,之前的工作已经研究了外部工具增强的可能性,例如计算器(Thoppilan等人,2022) 然而,这需要一种策略来确定神经网络应该在哪里卸载;当与发现的零样本提示结合使用时,它可能并不简单,特别是在没有明确书面说明较低级别计算步骤的情况下。

我们的解决方案是一个工作记忆词符,我们称之为 <work> 我们构建了一些提示数据集(见表 3),这些数据集将逐步推理封装在 <work> </work> 中。 其中一些数据集是通过程序生成的(OneSmallStep),方法是创建一个问题模板并对变量进行采样;另一些数据集则是在线获取的(WorkoutKhan Problems),还有一些数据集则使用了现有的数据集,并将其 Transformer 到基于 <work> 的环境中(GSM8k 训练)。 当执行人类无法在内部完成的计算时,我们通过编写和执行 Python 脚本来卸载。 3显示了一个示例。 重要的是,我们不必打开它,并且模型还可以预测运行程序的输出。 在我们的实验中,我们没有发现需要打开Python卸载,并将这方面的工作留给以后的工作。

Question: A needle 35mm long rests on a water surface at 20C. What force over and above the needle’s weight is required to lift the needle from contact with the water surface? σ=0.0728m. <work>
σ =0.0728N/m σ =F/L 0.0728 =F/(2×0.035) F =0.0728(2×0.035) calculate.py
‘‘‘
f = 0.0728*(2*0.035)

with open("output.txt", "w") as file:
file.write(str(round(f, 5)))
‘‘‘
<<run: "calculate.py"> <<read: "output.txt">> 0.0051 </work>
Answer: F=0.0051N
图3: 模型-机器共生。 We show an example answer with the <work> working memory token. 它执行重新排列方程的精确步骤,当它达到无法在前向传播中可靠解决的计算时,它会编写一个程序,然后将其卸载到经典计算机上。
Data source Split Prompts Tokens
GSM8k (Cobbe et al., 2021) train 7,473 3,518,467
OneSmallStep n/a 9,314 3,392,252
Khan Problems (Hendrycks et al., 2021) n/a 3,835 1,502,644
Workout n/a 921 470,921
Total 21,543 9 million
表3: 推理数据集 为了训练模型使用<作品>,我们在预训练中包含了几个数据集,这些数据集结合了这一词符。 完整详细信息包含在附录中。

从长远来看,可能需要改变架构来支持自适应计算,因此机器可以在工作上拥有内部工作内存,例如自适应计算时间和 PonderNet (Graves,2016;Banino 等人,2021) 在本文中,我们探讨了<工作>外部工作记忆方法,以此作为通向下一步的桥梁。 值得注意的是,我们的<工作>提示数据集并不大,也不多样,因此采用这种方法可能会有更大的收获。

3.1.2引文词符

学术文本的一个显着特征是引用。 为了表示文本中的隐式引用图,我们使用全局标识符和表示引用时间的特殊标记 [START_REF][END_REF] 来处理引用。 4 显示了论文中经过引文处理的文本的示例。

Recurrent neural networks, long short-term memory [START_REF]Long Short-Term Memory, Hochreiter[END_REF] and gated recurrent [START_REF]Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling, Chung[END_REF] neural networks in particular, have been firmly established as state of the art approaches in sequence modeling and transduction problems such as language modeling and machine translation [START_REF]Sequence to Sequence Learning with Neural Networks, Sutskever[END_REF][START_REF]Neural Machine Translation by Jointly Learning to Align and Translate, Bahdanau[END_REF][START_REF]Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation, Cho[END_REF].
图4: 引文处理文本 来自 Attention Is All You Need (Vaswani 等人,2017) 的引文处理文本示例。 对于标题处理的引文,标题可以与先前的上下文相关联。

我们考虑了两种类型的引文标识符:(a) 论文标题和 (b) 字母数字 ID。 根据消融,我们发现基于标题的标识符比 ID 具有更高的引文预测准确性。 然而,我们还发现,鉴于标识符基于文本的性质,论文标题在较低比例下更容易出现幻觉错误。 我们考虑本文的标题处理,但我们注意到两种方法之间的权衡。 这些消融的实验包含在附录中。

3.2及时预训练

Refer to caption
图5: 提示预训练 预训练对所有 Token 进行同等权重,作为自我监督损失的一部分。 这导致感兴趣的任务的相对信号较弱,这意味着模型规模必须很大才能发挥作用。 指令调优可以事后提高性能,并且可以推广到感兴趣的看不见的任务,但它会带来远离指令集任务的性能风险。 与指令调整相比,即时预训练的任务兴趣偏差较弱,但降低整体任务通用性的风险较小。

我们在一个重要方向上偏离了现有的语言模型研究,即我们决定在预训练中通用语料库中加入提示。 这是由一些观察结果推动的。

首先,现有的工作已经表明了训练词符对表现的重要性。 Chinchilla 论文在考虑 Token 数量的情况下得出了缩放“法则”,即 1.4 万亿 Token 的 700 亿模型(Hoffmann 等人,2022) 他们在 MMLU 上获得了最先进的性能,击败了 Gopher (Rae 等人,2021) 等更大的模型。

另外,FLAN 和 T0 等研究表明,及时调整可以提高下游性能(Wei 等人,2021;Sanh 等人,2021;Chung 等人,2022) 他们的策略包括将任务转换为文本提示,在任务的呈现方式上使用提示多样性,然后对这些提示数据集进行微调。 对于 FLAN 和 T0,这种方法提高了性能,在许多任务上击败了 GPT-3 等更大的模型。

此外还有 UnifiedQA 方法(Khashabi 等人,2020) 在这种方法中,T5 模型在问答数据集上进行了微调,并被证明可以提高域外问答数据集的性能(Raffel 等人,2020) 该模型在 MMLU 上的性能优于 GPT-3,模型大 16 倍。

上述第一组研究重点关注总训练 Token 作为提高性能的一种方式;即它是词符不可知论 第二个研究流集中于任务上下文标记作为提高性能的一种方式;即它是词符选择性 由于微调的较小模型在 MMLU 等任务上击败了较大的少样本模型,这表明世界知识可能存在于较小的模型中,但考虑到一般语料库中任务上下文标记的相对数量,任务上下文知识可能很差。

在本文中,我们选择通过更多任务提示来增强预训练数据,以提高较低规模的性能。 如果它消除了对更多数据规模的需要,例如,这是有利的。 >1万亿个语料库,或者更多的模型规模。 我们训练的最大 120B 模型在单个 NVIDIA A100 节点上运行。 此外,考虑到微调需要专业知识,让模型开箱即用地完成问答和总结等常见任务对于模型的用户来说更有用。 最后,通过在一般数据旁边包含提示,我们最大限度地提高了模型的通用性,同时提高了某些感兴趣任务的性能。

对于大型语言模型来说,与这种方法最接近的模拟是 ExT5 (Aribandi 等人,2021) 我们采用类似的方法,获取许多机器学习训练数据集,将它们转换为具有即时多样性的文本格式,然后将它们与通用语料库一起包含在我们的预训练集中。 4给出了提示类型的总结;附录中介绍了所使用的数据集和提示的完整详细信息。

Task Prompts Tokens
Chemical Properties 782,599 275 million
Multiple-Choice QA 256,886 31 million
Extractive QA 30,935 13 million
Summarization 6,339 11 million
Entity Extraction 156,007 9 million
Reasoning 21,543 9 million
Dialog 18,930 5 million
Binary QA 36,334 4 million
Other 3,559 1 million
Total 783,599 358 million
表 4: 预训练提示 我们在预训练中加入零样本提示以增强任务信号。

由于提示包含,区分域内性能(训练数据集包含在预训练中)和域外性能(训练数据集不包含在预训练中)非常重要。 我们在本文的结果部分清楚地标记了这些结果。 重要的是,我们不主张将即时预训练作为指令调整的替代方法。 事实上,卡拉狄加上的指令调整可能是有用的后续工作,因为它有可能提高一些感兴趣的任务的性能。

4方法

4.1架构

Gactica 在仅解码器设置中使用 Transformer 架构(Vaswani 等人,2017),并进行了以下修改:

  • GeLU 激活 - 我们对所有模型大小使用 GeLU 激活(Hendrycks 和 Gimpel,2016)

  • 上下文窗口 - 我们对所有模型尺寸使用 2048 长度的上下文窗口。

  • 无偏差 - 在PaLM之后,我们不在任何密集内核或层规范中使用偏差(Chowdhery等人,2022)

  • 学习位置嵌入 - 我们为模型使用学习位置嵌入。 我们在较小的尺度上对 ALiBi 进行了实验,但没有观察到较大的增益,因此我们没有使用它(Press 等人,2021)

  • 词汇表 - 我们使用 BPE (Sennrich 等人,2015)构建了 50k 个标记的词汇表 词汇表是从训练数据中随机选择 2% 的子集生成的。

4.2模型

5中概述了我们训练的不同模型大小以及训练超参数。

Model nparams nlayers dmodel nheads dheads Batch Size Max LR Warmup
GAL 125M 125M 12 768 12 64 0.5M 6×104 375M
GAL 1.3B 1.3B 24 2,048 32 64 1.0M 2×104 375M
GAL 6.7B 6.7B 32 4,096 32 128 2.0M 1.2×104 375M
GAL 30B 30.0B 48 7,168 56 128 2.0M 1×104 375M
GAL 120B 120.0B 96 10,240 80 128 2.0M 0.7×105 1.125B
表 5: 训练模型的详细信息

我们使用 AdamW 进行训练,其中 β1=0.9β2=0.95 和权重衰减为 0.1 (Loshchilov 和 Hutter,2017) 我们将梯度的全局范数剪裁为 1.0,并使用线性衰减将学习率降至其值的 10%。 我们使用p=0.1的dropout和attention dropout。 我们不使用嵌入dropout。 我们发现,在训练的早期阶段,较长的预热对于最大的模型很重要,可以防止不良初始化的影响,这会对优化器方差状态产生长期记忆影响并减慢学习速度。 这可能特定于我们的模型和训练设置,目前尚不清楚该建议是否具有普遍性。

4.3 图书馆和基础设施

我们使用metaseq库333https://github.com/facebookresearch/metaseq/ 用于训练模型,由 Meta AI 的 NextSys 团队构建。

为了训练最大的 120B 模型,我们使用 128 个 NVIDIA A100 80GB 节点。 为了进行推理,卡拉狄加 120B 需要单个 A100 节点。 我们选择最大模型大小来遵守下游可访问性的限制,并且我们将在未来几个月内努力提高研究界的可访问性。

5结果

Refer to caption
图6: 重复 Token 和验证损失 经过四个训练周期,我们继续看到所有模型大小的验证损失都下降。 对于 120B 模型,我们在第五个 epoch 开始时看到了过度拟合的第一个迹象,我们在此时提前停止。

5.1 重复的 Token 被认为是无害的

我们训练了 4500 亿个 Token 的模型,或者说大约 4.25 个时期。 我们发现,通过语料库的多次重复,验证集、域内和域外基准的性能持续提高。

首先,从图6训练中,验证损失在四个时期内继续下降。 最大的 120B 模型仅在第五个 epoch 开始时才开始过拟合。 这是出乎意料的,因为现有研究表明重复的标记可能会损害性能(Hernandez 等人,2022) 我们还发现 30B 和 120B 表现出验证损失稳定(或上升)随后下降的划时代双下降效应。 这种效果随着每个时期的发展而变得更强,并且在上面的 120B 模型接近结束时最为明显。

为了进一步调查,我们检查了验证损失的每个来源的细分,以查看损失行为是否存在异质性。 我们在背面的图 23 中绘制了 30B 模型的示例曲线。 我们没有看到损失异质性的迹象:所有来源的损失都会下降。 120B 表现出所有来源验证损失下降的相同相对趋势,直到第五纪元开始,所有来源都出现峰值(参见附录)。

Refer to caption
图7: 每个来源的验证损失 所有数据集类别的验证损失都落在训练中。 上面显示的是 30B 模型的结果。 120B 表现出所有来源验证损失下降的相同相对趋势,直到第五纪元开始,所有来源都出现峰值(参见附录)。

下一个要回答的问题是这种趋势是否会扩展到下游性能和域外泛化。 为此,我们使用 BIG-bench 子集的 57 个任务子集,这是一个主要包含非科学任务和未包含在预训练中的提示类型的通用语料库(Srivastava 等人,2022). 我们将结果绘制在图 8 中。 我们没有看到过度拟合的迹象,这表明使用重复 Token 可以提高下游性能和上游性能。

Refer to caption
图8: 训练期间的大板凳表现 BIG-bench 选择的 57 项任务主要包含非科学任务。 我们将其用作域外性能的代理。 对于上面的 120B 模型,在语料库重复四次后,我们没有看到过度拟合的迹象。

我们怀疑可能有两个因素在起作用,一个是质量因素,语料库的策划性质使得每个词符能够提取更多的价值,另一个是模态因素,科学数据的性质使得每个词符能够被提取出更多的价值。 因果关系中缺失的一步是导致任一因素减少过度拟合的具体原因,我们将这个问题留待进一步研究。 我们注意到,当前大语言模型项目的“tokens”焦点可能过分强调了语料库质量过滤的重要性。

在以下部分中,我们将评估卡拉狄加的科学能力。 具体来说,我们专注于构建一个可以存储、组合和推理科学知识的大语言模型的高层设计目标——因为这些是构建新的科学界面所需要的。

5.2知识探究

首先,我们检查卡拉狄加吸收科学知识的情况。 我们建立了几个知识探测基准,以 Petroni 等人 (2019) 的 LAMA 方法为基础。 这些是模型开发过程中的关键指标,用于识别语料库内的知识差距,并告知如何迭代语料库。 它们还提供了有关卡拉狄加与通用语言模型的相对知识优势的见解,我们在转向下游任务之前将在本节中介绍这些结果。

5.2.1 LaTeX 方程

我们构建了化学、物理、数学、统计学和经济学领域流行的 LaTeX 方程的数据集。 记住方程对于测量很有用,因为它对于许多下游任务是必要的;例如,回忆一个方程式作为问题答案的一部分。 除非明确说明,卡拉狄加结果报告为零样本。 我们总共测试了 434 个方程来进行知识探索。

我们提示方程名称并生成 LaTeX。 9显示了一个示例。

Prompt The formula for Bessel’s differential equation is: Generated Answer x2d2ydx2+xdydx+(x2α2)y=0
图9: LaTeX 方程探针 我们提示输入方程式的名称并评估生成的 LaTeX 是否正确。 我们手动评估给出多个正确答案的可能性。

我们将结果总结在表6中。 方程知识随着规模的扩大而平稳增长。 《卡拉狄加》的性能优于在一般语料库上训练的大型语言模型,这表明了精选数据集的价值。

Model Params (bn) Chemistry Maths Physics Stats Econ Overall
OPT 175 34.1% 4.5% 22.9% 1.0% 2.3% 8.9%
BLOOM 176 36.3% 36.1% 6.6% 14.1% 13.6% 21.4%
GPT-3 (text-davinci-002) ? 61.4% 65.4% 41.9% 25.3% 31.8% 49.0%
GAL 125M 0.1 0.0% 0.8% 0.0% 1.0% 0.0% 0.5%
GAL 1.3B 1.3 31.8% 26.3% 23.8% 11.1% 4.6% 20.5%
GAL 6.7B 6.7 43.2% 59.4% 36.2% 29.3% 27.3% 41.7%
GAL 30B 30 63.6% 74.4% 35.2% 40.4% 34.1% 51.5%
GAL 120B 120 79.6% 83.5% 72.4% 52.5% 36.4% 68.2%
表 6: LaTeX 方程的结果 结果通过零样本进行评估。

5.2.2 域探测

我们还设置了领域探针来跟踪某些领域的专业知识。 我们详细介绍如下:

  • AminoProbe:20种常见氨基酸的名称、结构和性质的数据集。

  • BioLAMA:生物医学事实知识三元组的数据集。

  • 化学反应:化学反应的数据集。

  • 星系团:星系团及其星座分类的数据集。

  • 矿物组:矿物及其矿物组分类的数据集。

在每种情况下,我们都会构建一个提示来测试知识。 例如,对于化学反应,我们要求卡拉狄加预测化学方程式 LaTeX 中的反应产物。 我们在描述中屏蔽了产品,因此模型仅根据反应物进行推断。 10显示了一个示例。

Prompt Sulfuric acid reacts with sodium chloride, and gives _____ and _____: \[ \ce{ NaCl + H2SO4 ->
Generated Answer \ceNaCl+H2SO4>NaHSO4+HCl
图10: 化学反应 我们根据描述和反应物进行提示,并评估生成的产物是否正确。

我们在表 7 中报告了这些知识探测的结果。

Model Params (bn) Amino BioLAMA Reactions Clusters Minerals
OPT 175 12.0% 7.1% 12.7% 21.7% 1.6%
BLOOM 176 14.0% 9.7% 22.4% 15.0% 10.3%
GPT-3 (text-davinci-002) ? 14.0% 8.4% 35.1% 20.8% 18.3%
GAL 125M 0.1 12.0% 3.1% 0.3% 6.7% 0.0%
GAL 1.3B 1.3 16.0% 7.2% 14.4% 14.2% 10.3%
GAL 6.7B 6.7 17.0% 7.9% 26.4% 17.5% 8.7%
GAL 30B 30 21.0% 6.9% 36.5% 20.0% 17.5%
GAL 120B 120 21.0% 8.0% 43.1% 24.2% 29.4%
表 7: 域探测结果 结果通过零样本进行评估。

我们还观察到这些知识探针中的稳定缩放行为,但 BioLAMA 除外,我们怀疑它反映了所有大语言模型的零样本提示困难。 值得注意的是,细粒度的事实知识,例如“ConstellationOf(GalaxyCluster)”类型查询似乎可以随着模型的大小平滑扩展。

5.2.3推理

现在我们来看看 <work> 词符的推理能力。 我们首先评估 MMLU 数学基准,我们在表 8 (Hendrycks 等人,2020)中报告了这些基准。 与更大的基本型号相比,"银河 "的性能更强,即使是较小的 30B "银河 "型号,使用 <work> 词符似乎也能比 "钦奇拉 "提高性能。

Mathematics MMLU
Model Params (bn) A.Algebra Elem HS College F. Logic Average
BLOOM (5-shot) 176 25.0% 26.7% 27.0% 25.0% 26.2% 26.4%
OPT (5-shot) 175 21.0% 25.7% 24.4% 33.0% 29.4% 26.7%
Gopher (5-shot) 280 25.0% 33.6% 23.7% 37.0% 35.7% 30.6%
Chinchilla (5-shot) 70 31.0% 41.5% 31.9% 32.0% 33.3% 35.7%
GAL 1.3B 1.3 28.0% 27.2% 26.7% 30.0% 24.6% 27.1%
GAL 6.7B 6.7 28.0% 28.9% 26.7% 36.0% 31.0% 29.2%
GAL 30B 30 30.0% 30.2% 26.3% 36.0% 31.7% 29.9%
GAL 120B 120 33.0% 38.1% 32.6% 43.0% 32.5% 35.8%
GAL 1.3B <work> 1.3 22.0% 24.6% 18.9% 25.0% 31.0% 24.6%
GAL 6.7B <work> 6.7 33.3% 30.7% 25.2% 26.0% 33.3% 28.0%
GAL 30B <work> 30 33.0% 41.5% 33.3% 39.0% 37.3% 37.1%
GAL 120B <work> 120 27.0% 54.2% 37.0% 44.0% 40.5% 41.3%
表8: 数学 MMLU 成绩 《卡拉狄加》的评估没有少量样本。 With the <work> token we see large gains in performance. 结果基于 MMLU 测试。

我们还对 MATH 数据集进行了评估,以进一步探讨 Gactica (Hendrycks 等人,2021) 的推理能力。 我们直接将 <work> 词符提示与 Minerva 5 连击思维链提示 mCoT 进行比较,以获得可比性。 我们在表 9 中报告结果。

MATH Results
Model Alg CProb Geom I.Alg N.Theory Prealg Precalc Average
Base Models
GPT-3 175B (8-shot) 6.0% 4.7% 3.1% 4.4% 4.4% 7.7% 4.0% 5.2%
PaLM 540B (5-shot) mCoT 9.7% 8.4% 7.3% 3.5% 6.0% 19.2% 4.4% 8.8%
GAL 30B <work> 15.8% 6.3% 5.8% 4.9% 2.4% 19.4% 8.2% 11.4%
GAL 30B (5-shot) mCoT 17.9% 6.8% 7.9% 7.0% 5.7% 17.9% 7.9% 12.7%
GAL 120B <work> 23.1% 10.1% 9.8% 8.6% 6.5% 23.8% 11.7% 16.6%
GAL 120B (5-shot) mCoT 29.0% 13.9% 12.3% 9.6% 11.7% 27.2% 12.8% 20.4%
Fine-tuned LaTeX Models
Minerva 540B (5-shot) mCoT 51.3% 28.0% 26.8% 13.7% 21.2% 55.0% 18.0% 33.6%
表 9: 数学结果 通过思维链和 <work> 词符提示,Galactica 的性能超过了 PaLM,但容量却减少了 18 倍。

我们看到,在思维链和<工作>提示下,Galactica 的表现明显优于基本 PaLM 模型。 Galoida 30B 在两个提示上都优于 PaLM 540B:型号小 18 倍。 这表明卡拉狄加可能是针对数学任务进行微调的更好的基础模型。

我们报告 Minerva 结果的完整性,它是专门针对 LaTeX 进行微调的 540B PaLM。 密涅瓦的性能优于基础卡拉狄加,但性能差异并不均匀;这指向不同的数学数据偏差。 为了与 Minerva 进行直接比较,该模型可以免费提供给那些想要将《卡拉狄加》微调为 LaTeX 的人,特别是作为后续工作。

5.3 下游科学 NLP

我们现在评估下游科学任务,看看卡拉狄加在不同的任务环境中能够如何很好地构建其知识。 我们专注于知识密集型科学任务,并在表10中报告了完整结果。 为此,我们使用 MMLU 基准以及其他一些流行的科学 QA 基准。 We include the MMLU results earlier without <work> to test for knowledge association specifically. 完整的 MMLU 结果,包括社会科学和其他领域,在附录中报告。 我们还对这些基准进行数据泄漏分析,以提高信心;结果见附录。

从表10可以看出,卡拉狄加可以将知识组合到问答任务中,表现较强;显着优于其他开放语言模型,并且在大多数任务中优于更大的模型(Gopher 280B)。 与龙猫的表现差异较大,龙猫似乎在某些任务中表现更强:特别是高中科目和数学程度较低、记忆强度较高的任务。 相比之下,卡拉狄加在数学和研究生水平的任务中往往表现更好。

我们的工作假设是,卡拉狄加语料库偏向研究生科学知识,因为它主要由论文组成,这解释了高中科目表现的滞后。 虽然我们确实通过百科全书、教科书和经过过滤的 CommonCrawl 获取了一些高中水平的内容,但这相当于少量的 Token (几十亿)。 我们将如何以有组织的方式捕获更多基础科学知识的问题留给未来的工作。

在剩下的任务中,我们在撰写本文时通过微调模型取得了最先进的结果。 在 PubMedQA 上,我们取得了 77.6% 的分数,优于最先进的 72.2% (Yasunaga 等人,2022) 在 MedMCQA 开发中,我们取得了 52.9% 的分数,而最先进的分数为 41.0% (Gu 等人,2020) 对于 BioASQ 和 MedQA-USMLE,性能接近微调模型的最先进性能(94.8% 和 44.6%)(Yasunaga 等人,2022)

Dataset Domain GAL OPT BLOOM GPT-3 Gopher Chinchilla
Abstract Algebra out-of-domain 33.3% 21.0% 25.0% - 25.0% 31.0%
ARC Challenge in-domain 67.9% 31.1% 32.9% 51.4% - -
ARC Easy in-domain 83.8% 37.4% 40.7% 68.8% - -
Astronomy out-of-domain 65.1% 23.0% 25.7% - 65.8% 73.0%
BioASQ in-domain 94.3% 81.4% 91.4% - - -
Biology (College) out-of-domain 68.8% 30.6% 28.5% - 70.8% 79.9%
Biology (High-School) out-of-domain 69.4% 27.7% 29.4% - 71.3% 80.3%
Chemistry (College) out-of-domain 46.0% 30.0% 19.0% - 45.0% 51.0%
Chemistry (High-School) out-of-domain 47.8% 21.7% 23.2% - 47.8% 58.1%
Comp. Science (College) out-of-domain 49.0% 17.0% 6.0% - 49.0% 51.0%
Comp. Science (High-School) out-of-domain 70.0% 30.0% 25.0% - 54.0% 58.0%
Econometrics out-of-domain 42.1% 21.0% 23.7% - 43.0% 38.6%
Electrical Engineering out-of-domain 62.8% 36.6% 32.4% - 60.0% 62.1%
Elementary Mathematics out-of-domain 38.1% 25.7% 27.6% - 33.6% 41.5%
Formal Logic out-of-domain 32.5% 29.4% 26.2% - 35.7% 33.3%
Machine Learning out-of-domain 38.4% 28.6% 25.0% - 41.1% 41.1%
Mathematics (College) out-of-domain 43.0% 33.0% 25.0% - 37.0% 32.0%
Mathematics (High-School) out-of-domain 32.6% 24.4% 27.0% - 23.7% 31.9%
Medical Genetics out-of-domain 70.0% 35.0% 36.0% - 69.0% 69.0%
Physics (College) out-of-domain 42.2% 21.6% 18.6% - 34.3% 46.1%
Physics (High-School) out-of-domain 33.8% 29.8% 25.2% - 33.8% 36.4%
MedQA-USMLE out-of-domain 44.4% 22.8% 23.3% - - -
MedMCQA Dev in-domain 52.9% 29.6% 32.5% - - -
PubMedQA in-domain 77.6% 70.2% 73.6% - - -
Statistics (High-School) out-of-domain 41.2% 43.5% 19.4% - 50.0% 58.8%
表 10: 问答结果 《卡拉狄加》的评估没有少量样本。 除 ARC 结果上的 GPT-3 以及 PubMedQA 和 BioASQ 上的 OPT 和 BLOOM 的 0-shot 结果外,其他大语言模型均以 5-shot 进行评估。 对于抽象代数和医学遗传学,我们以 30B 获得了最好的结果,因此我们报告这些分数;这些的 120B 分数分别为 27.0% 和 68.0%。 其余结果为 120B。

5.4引文预测

在本节中,我们评估卡拉狄加在给定输入上下文的情况下预测引用的能力,这是对卡拉狄加组织科学文献能力的重要测试。 我们发现分布近似的准确性和质量都随着规模的增加而提高。

5.4.1 引文准确性

我们构建了三个数据集来评估模型的引用能力:

  • PWC Citations:包含 644 对机器学习概念和介绍它们的论文的数据集。 概念包括来自 Papers with Code444https://paperswithcode.com 的方法(例如 ResNet)和数据集(例如 ImageNet)。

  • 扩展引用:包含 110 对非机器学习概念和介绍它们的论文的数据集。 概念示例包括Kozac 序列Breit-Wigner 分布

  • Contextual Citations:包含来自 arXiv 验证集的 1,869 对引用和上下文的数据集。 该数据集是通过对 1,000 个随机引用进行采样并收集其上下文来构建的。

对于 PWC CitationsExtended Citations 数据集,引文预测任务被定义为文本生成任务。 该模型会收到类似“在本文中我们使用 ResNet 方法 [START_REF]”的提示,以便生成针对 ResNet 概念的预测。 对于上下文引用,我们会在输入引用上下文后进行提示,其中上下文以[START_REF] 结尾。

我们将卡拉狄加与此任务中基于稀疏和密集检索的方法进行比较。

对于稀疏基线,我们使用 ElasticSearch 创建所有参考文献的索引,包括它们的标题、摘要和文本简短片段及其出现的上下文。 然后,给定一个文本查询,我们检索按所有选定字段的匹配分数总和排序的顶级引用。

对于密集检索器基线,我们评估了两种不同的 Contriever 模型(Izacard 等人,2021) 第一个是Izacard等人(2021)发布的预训练模型。 我们使用的第二个模型是在我们的语料库中的 1000 万个上下文/论文对的随机子集上进行微调的,经过训练可以在引用之前给定上下文检索正确的论文。 密集检索的设置是:(1)每个参考文献都由模型使用其标题和摘要进行编码,(2)文本查询由同一模型编码,(3)返回与查询匹配的参​​考文献。 使用 FAISS 索引(Johnson 等人,2019) 进行检索。

结果见表11

Model Params (bn) PWC Citations Extended Citations Contextual Citations
GAL 125M 0.1 7.0% 6.4% 7.1%
GAL 1.3B 1.3 18.5% 45.5% 15.9%
GAL 6.7B 6.7 32.0% 60.0% 23.0%
GAL 30B 30 44.7% 66.4% 31.5%
GAL 120B 120 51.9% 69.1% 36.6%
Sparse Retriever n/a 30.9% 17.3% 5.3%
Dense Retriever (base) n/a 16.4% 8.8% 1.6%
Dense Retriever (fine-tuned) n/a 27.6% 11.8% 8.2%
表 11: 引文预测准确性 不同模型大小在引文预测上的性能。

所有评估集的性能随着规模的扩大而平稳增长。 在更大的范围内,随着上下文关联能力的提高,卡拉狄加的表现优于基于检索的方法。 这是一个重要的结果,因为当前的文献导航方法使用这些现有的检索方法。 随着语言模型能力的提高,我们怀疑它们将成为探索文献的有价值的新工具。

5.4.2 引文分布分析

Refer to caption
(a) Kolmogorov-Smirnov Distance
Refer to caption
(b) Histogram Overlap
图11: 引用分布比较 《卡拉狄加》的引用分布在规模上接近真实情况。 这可以通过 KS 距离随尺度的减小以及直方图重叠的增加来看出。

现在我们来看看《卡拉狄加》对经验引用分布的建模效果如何。 对于此分析,我们使用Contextual Citations数据集,其中通过将引文之前的上下文作为提示从论文中提取提示。 12 的背面显示了模型预测的示例提示。

我们使用上下文引用数据来分析预测论文数和真实论文数之间的分布差异。 这使我们能够评估模型对预测更受欢迎论文的偏差。 具体来说,对于每个上下文都有一个基本事实和预测参考。 我们计算每个参考文献在我们的语料库中出现的次数。 然后,我们使用 Kolmogorov-Smirnov 距离(Massey,1951)比较真实参考和预测参考之间的参考计数分布。

不同模型大小的引用计数分布比较如图11所示。 11(a)显示了真实论文引用分布与预测论文引用分布之间的柯尔莫哥洛夫-斯米尔诺夫距离的减小。 11(b)显示了随着模型大小的增加,预测论文的论文数量分布如何更加接近真实情况。 在较小的规模下,模型更容易预测更受欢迎的论文。 随着模型规模的增大,这种预测热门论文的偏差就会减少。

Prompt in the BQ literature as, when p is a mixture of Gaussians, the mean element μp is analytically tractable (see Appendix C). Some other (p,k) pairs that produce analytic mean elements are discussed in [[START_REF] On the Equivalence between Kernel Quadrature Rules and Random Feature Expansions, Bach[START_REF]]. For this simulation study, we took p(x) to be a 20-component mixture of 2D-Gaussian distributions. Monte Carlo (MC) is often used for such distributions but has a slow convergence rate in 𝒪P(n1/2). FW and FWLS are known to converge more quickly and are in this sense preferable to MC [[START_REF] Prediction On the Equivalence between Herding and Conditional Gradient Algorithms, Bach
图 12: 引用提示 预测上下文中的引用的示例提示;来自Briol 等人 (2015)

5.5一般功能

我们研究了卡拉狄加的科学能力。 专业科学模型在科学任务上优于一般模型也许并不奇怪,但更令人惊讶的是它在一般 NLP 任务上优于一般模型。 在本节中,我们将展示令人惊讶的证据,证明它确实可以做到这一点。

我们对表12(Srivastava 等人,2022)中的 57 个 BIG-bench 任务进行了评估。 这些任务主要是非科学的,测试一般语言能力,例如时代错误、修辞手法和布尔隐喻。 我们总是用 5 个镜头进行评估,并使用 BIG-Bench 的默认提示样式。 重要的是,我们没有在预训练中包含这种提示样式;所以卡拉狄加和其他机型的评价是5连拍的。 完整的详细信息和结果参见附录。 我们在表 12 中总结了平均分数:

Model Params (bn) Accuracy Accuracy
weighted unweighted
OPT 30B 30 39.6% 38.0%
BLOOM 176B 176 42.6% 42.2%
OPT 175B 175 43.4% 42.6%
GAL 30B 30 46.6% 42.7%
GAL 120B 120 48.7% 45.3%
表 12: BIG-bench 57 任务结果 在较小的规模上,卡拉狄加的表现优于一般的开放模型。

30B 和 120B 卡拉狄加型号均优于较大的 OPT 和 BLOOM 通用型号。 这是一个令人惊讶的结果,因为我们设计卡拉狄加是为了权衡科学任务中的通用性和性能。

我们怀疑这一结果反映了《卡拉狄加》语料库的更高质量,因为它是经过精心策划的,而且主要是学术文本。 以前的开放大语言模型工作可能过度关注规模目标而忽视数据过滤。 另一个含义是,对 Chinchilla Token 的关注需要辅以强大的数据质量程序(Hoffmann 等人,2022) 在本文中,我们采取了相反的方法,重点关注高质量的 Token 和重复的训练周期。 然而,龙猫的见解是成立的:还有更多的科学文本我们在这项工作中没有利用。

5.6化学理解

我们现在转向卡拉狄加与不同科学模式交互的能力。 我们首先看看卡拉狄加的化学能力。 化学性质表现出复杂的相关性,这意味着化学空间非常大。 通过语言模型更好地组织化学信息可以帮助化学设计和发现。 我们将在本节中探讨卡拉狄加如何为这些任务提供新的界面。

对于这项工作,我们在预训练中仅包含 PubChem Compound 中可用化合物的一小部分。 具体来说,我们选取​​总化合物(110 百万)的随机子集(2 百万)。 这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。 这是我们可以在未来的工作中放松的限制,从而实现更大的语料库。 在这里,我们重点关注第一步,研究单个模型是否可以在多模态设置中有效学习。

我们发现语言模型可以以自我监督的方式学习化学任务,例如 IUPAC 命名,此外,我们可以将药物发现任务作为自然语言提示并获得合理的结果。

5.6.1 IUPAC名称预测

SMILES 是一种线符号,将化学结构表示为字符序列(Weininger,1988) 在卡拉狄加语料库中,SMILES 公式与文档中的信息一起出现,例如 IUPAC 名称、分子量和 XLogP。 在自监督学习的背景下,这意味着语言模型正在执行隐式多任务学习:该模型正在预测下一个 SMILES 词符,但也可以使用 SMILES 来预测文档中的其他实体。

作为初始测试,我们设置了一个 IUPAC 名称预测 任务,该任务是根据给定 SMILES 公式输入的 IUPAC 命名法来命名化合物。 IUPAC 命名法是一种命名有机化合物的方法,其规则集基于命名由单键连接的最长碳链(Favre 和 Powerll,) 有大量的规则,并且过程在算法上很复杂,这意味着很难自动化。 因此,标准化学信息学工具包中缺少它。

STOUT 和 Struct2IUPAC 等之前的工作已经探索了使用 RNN 和 Transformer 来完成此任务的可能性(Rajan 等人,2021;Krasnov 等人,2021) 我们在本节中探讨卡拉狄加是否可以在自我监督的环境中将 SMILES 规范翻译为其 IUPAC 名称。 我们设计了一个基于 PubChem 结构的提示,以 SMILES 作为唯一输入,并以输出来预测 IUPAC 名称。

为了进行评估,我们使用包含 17,052 种化合物的化合物验证集,并使用 SMILES 公式进行提示并预测 IUPAC 名称。 为了计算准确性,我们使用 OPSIN 将生成的 IUPAC 名称转换为 SMILES,对其进行规范化并与规范化的 SMILES 目标 (Lowe 等人,2011) 进行比较。

结果如表13所示。

Model Params (bn) Accuracy Invalid Names
GAL 125M 0.1 0.0% 32.8%
GAL 1.3B 1.3 2.5% 12.0%
GAL 6.7B 6.7 10.7% 12.3%
GAL 30B 30 15.4% 9.7%
GAL 120B 120 39.2% 9.2%
表 13: IUPAC 命名结果 性能随着规模的扩大而平稳提高。

准确度随着规模的增加而平稳增加。 鉴于我们将语料库限制为 200 万个分子,通过对更多分子进行训练或微调,可能可以实现更好的性能。 该模型可供那些想要执行后续工作的人免费使用。

更直接的问题是实际上正在学习什么:卡拉狄加是从基本分子结构推断名称吗? 为了回答这个问题,我们将预测每个阶段的平均原子注意力可视化,如图13所示。 令人鼓舞的是,结果可以根据基本化学来解释,并且卡拉狄加在预测名称时会考虑到正确的组,例如对于“氨基”,它主要涉及\ceNH2取代基。

Task: Convert the SMILES to IUPAC Name
Example: CC(C)(C)C(=O)N(CC1=NC(=CS1)C(=O)OC)C2CCCCC2

Atomic Attention Predicted So Far Token Predicted
Refer to caption
-
methyl
Refer to caption
methyl 2-[[cyclohexyl
cyclohexyl
Refer to caption
methyl 2-[[cyclohexyl-(2,2-
dimethyl
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethyl
prop
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethylprop
anoyl
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethylpropanoyl)
amino
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethylpropanoyl)]amino]
methyl]
th
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethylpropanoyl)]amino]
methyl]th
iazole
Refer to caption
methyl 2-[[cyclohexyl-(2,2-dimethylpropanoyl)]amino]
methyl]thiazole-4-
carboxylate
图 13: 参加职能小组 卡拉狄加利用其化学知识来帮助完成 IUPAC 命名任务。 在预测的每个阶段,它都会关注与组名称相关的分子图部分,例如对于“氨基”,它涉及氮原子;对于噻唑,硫原子。

5.6.2分子网

我们现在探索是否可以以自然语言格式提出传统的药物发现任务,结合所涉及的不同模式。 人类通过自然语言组织知识,因此学习自然语言和 SMILES 等科学模式之间的接口可能成为探索化学空间的新工具。 我们使用 MoleculeNet 分类基准来回答这个问题,表 14 (Wu 等人, 2017) 总结了这些基准。

Category Dataset Type Other modalities
Biophysics HIV Classification n/a
BACE C Classification n/a
Physiology BBBP Classification n/a
Tox21 Classification protein sequences
SIDER Classification n/a
ClinTox Classification n/a
表 14: 用于评估的 MoleculeNet 数据集 我们将训练集转换为文本格式并包含在预训练中。 我们使用 DeepChem 库建议的拆分(Ramsundar 等人,2019) 进行评估。

为了进行评估,我们通过转换为文本格式将训练集包含在预训练中。 我们使用即时随机化(改变问题的提出方式)。 例如,对于 BBBP,训练提示符的形式如下图 14 所示。 这些示例与训练中的其他语料库一起出现,每个示例的出现次数仅超过 4 次。 由于预训练中存在其他数据,这与直接微调或监督无法相比,因此它可能被视为弱监督的一种形式。

Here is a SMILES formula: [START_I_SMILES]O=C(O)CCCC1=CC=C(N(CCCl)CCCl)C=C1[END_I_SMILES]
Question: Will the chemical compound penetrate the blood-brain barrier? Answer: No
图 14: BBBP提示 我们包括 SMILES 并用自然语言提出分类问题。

对于某些 MoleculeNet 数据集,隐含存在其他模式。 例如,在 Tox21 数据集中,生物测定涉及特定受体,例如雄激素受体 (AR)。 作为一项实验,我们决定以文本格式构建任务,其中蛋白质序列和微笑作为提示的一部分。 我们在图 15 中展示了 Tox21 的示例。

Here is a sequence for a protein: [START_AMINO]MEEPQSDPSVEPPLSQETFSDLWKLLPE...[END_AMINO]
And here is an isomeric SMILES for a compound: [START_I_SMILES]CC(O)(P(=O)(O)O)P(=O)(O)O[END_I_SMILES]
Question: Will the the chemical compound be active against this protein? Answer: No
图 15: Tox21 提示 我们包括蛋白质序列和 SMILES 公式,并用自然语言提出分类问题。

我们确保将 SMILES 凯库勒化为与 PubChem 表示一致。 为了进行评估,我们使用 DeepChem 库中推荐的分割(Ramsundar 等人,2019)

我们在表 15 中列出了结果。 性能随模型大小而变化。 扩展速度比 QA 等任务慢,并且基础模型落后于具有显式 3D 信息和 10 倍以上分子的专业模型(Zhou 等人,2022) 我们怀疑弱监督设置对于这项任务来说更困难,并且需要微调和/或更多分子数据才能获得足够的任务信号。 该模型可用于这方面的工作。

MoleculeNet Classification
Model Modality Molecules BACE BBBP ClinTox HIV SIDER Tox21 Av.
GAL 125M SMILES 2M 0.561 0.393 0.518 0.702 0.559 0.543 0.581
GAL 1.3B SMILES 2M 0.576 0.604 0.589 0.724 0.540 0.606 0.619
GAL 6.7B SMILES 2M 0.584 0.535 0.784 0.722 0.559 0.639 0.640
GAL 30B SMILES 2M 0.727 0.596 0.822 0.759 0.613 0.685 0.687
GAL 120B SMILES 2M 0.617 0.661 0.826 0.745 0.632 0.689 0.690
Uni-Mol 3D 20M 0.857 0.729 0.919 0.808 0.659 0.796 0.770
表 15: MoleculeNet 分类结果 结果通过 ROC-AUC 进行评分。

就我们的目的而言,对未来工作的影响是我们可以通过自然语言提示来学习药物发现任务。 如果我们能够在信号密集的文档上下文(例如在线化学数据库)中自动学习这些关系,这可能会减少对监督数据集执行这些任务的依赖。

作为最后的检查,我们可以对卡拉狄加的跨层注意力头进行平均,并可视化模型在 SMILES 序列中的位置以进行预测(原子注意力)。 我们在图 16 中展示了一些 Tox21 预测的示例。

Positive Examples

Refer to caption
(a) Danazol (28417) on NR-AR
Refer to caption
(b) Gestodene (3033968) on NR-AR
Refer to caption
(c) Mometasone f. (441336) on NR-AR

Negative Examples

Refer to caption
(d) γ-Terpinene (7461) on NR-PPAR-γ
Refer to caption
(e) Bemegride (2310) on NR-AR
Refer to caption
(f) Arecoline (2230) on NR-PPAR-γ
图 16: Tox21 的注意力可视化 前三个分子是 30B 模型置信度最高的正面例子;底部三个是置信度最高的负面因素。 我们将 SMILES 的注意力权重与规范原子排序相匹配。 已知达那唑和孕二烯酮对雄激素受体 (AR) 具有高亲和力(Nieschlag 等人, 2010)

5.7生物学理解

在本节中,我们将研究卡拉狄加与生物形态交互的能力。 语言模型可能会在这些数据的自动组织中发挥作用,例如用功能信息注释新测序的蛋白质。 我们在本节中探讨该接口的潜力。

对于来自 UniProt 的蛋白质序列,我们在预训练中包含一小部分可用序列。 具体来说,我们采用经过审查的 Swiss-Prot 蛋白质;总数(227 百万)的高质量子集(0.5 百万)。 这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。 与分子数据一样,我们可以在未来的工作中放松这一限制,从而实现更大的语料库。 在这里,我们重点关注第一步,研究单个模型是否可以在多模态设置中有效学习。

我们发现语言模型可以学习序列相似性的隐式测量,可用于功能性标注和描述等任务。

5.7.1 序列验证困惑

Refer to caption
图 17: 一级结构预测 对于三个验证集,我们观察到平滑的缩放,反映了与训练集中的序列具有高度序列相似性的潜力;例如,Paen 验证集的直向同源物。 具有序列相似性约束的 CASP 集趋于平稳,这表明训练中 550k 蛋白质的增益很快就会饱和,以获得更多的域外序列。

虽然卡拉狄加没有明确模拟蛋白质的 3D 结构,但特定构象所需的信息包含在线性氨基酸序列中,这反过来又决定了功能。 第一步,我们通过评估蛋白质序列复杂性来测试上游性能。 构建一个好的验证集很重要,而数据泄漏是该领域工作的一个问题。 我们构建了四个坚持集,以获得对所学内容和概括内容的更多信心。

首先,我们对训练集中的序列进行BLAST,删除与51个CASP14目标序列具有序列同一性50%的所有序列。 这些与 ESMFold (Lin 等人, 2022b) 中使用的测试序列相同。 我们使用这种方法总共从训练集中删除了 167 个序列。 我们将此称为保留集 CASPSimilarSeq 我们将 51 个 CASP14 目标序列称为 CASPSeq

其次,我们进行了生物体层面的保留,并删除了 Paenungulata 生物进化枝中的所有序列,包括大象、象鼩、海牛和 aadvarks。 这使我们能够测试卡拉狄加是否可以为它以前从未见过的生物体注释序列。 我们使用这种方法总共从训练集中删除了 109 个序列。 我们将此保留集称为PaenSeq 请注意,这不会强制执行任何序列相似性约束,并且训练集中可能存在非常相似的序列。

最后,我们进行随机测试分割,由 5456 个序列组成。 没有应用序列同一性约束,因此记忆可能更重要,但它仍然提供了有关模型吸收的序列知识广度的信号。 我们将此保留集称为 UniProtSeq

我们评估表16中所有保留集的困惑度并在图17中绘制。 对于三个验证集,我们观察到平滑的缩放,反映了与训练集中的序列具有高度序列相似性的潜力;例如,Paen 验证集的直向同源物。 有趣的是,具有序列相似性训练限制的 CASP 集逐渐趋于平稳,这表明 550k 蛋白质的增益很快就饱和了。

Protein Sequence Validation Perplexity
Model Param (bn) CASPSeq CASPSimSeq PaenSeq UniProtSeq
GAL 125M 0.1 20.62 19.18 16.35 19.05
GAL 1.3B 1.3 17.58 17.04 12.53 15.82
GAL 6.7B 6.7 17.29 16.35 7.76 11.58
GAL 30B 30 17.27 15.42 4.28 8.23
GAL 120B 120 17.26 12.77 3.14 5.54
表 16: 蛋白质验证困惑 与训练集具有较高潜在序列相似性的验证集比限制集(CASP 验证集)具有更低的困惑度。

为了进一步研究,我们在 120B 模型训练期间对 CASPSeq 集进行验证困惑,并在下面的图 18 中绘制结果。

Refer to caption
图 18: 训练期间的 CASPSeq 验证 过度拟合发生在训练结束之前,但效果并不明显,重复蛋白质序列 3 次不会损害该任务的性能。 最终的 120B 模型是倒数第二个点,反映了我们应用的提前停止(请参阅前面的部分)

我们观察到验证困惑度不断下降,直到第四个纪元开始,此时模型对该特定数据集过度拟合。 这可能表明卡拉狄加在更多与测试集显着不同的“域外”蛋白质方面表现得越来越差。 对于未来的工作,减少重复可能是可取的;更一般地说,增加训练数据集中蛋白质的多样性可能是有益的。

5.7.2 功能关键词预测

我们现在研究从蛋白质序列到自然语言的特定翻译能力,这可能对蛋白质标注等任务有用。 作为第一个测试,我们查看卡拉狄加可以从序列中推断出的 UniProt 关键字。 背面的图 20 显示了此类示例。

Refer to caption
图 19: 蛋白质关键词预测 该测试测试了卡拉狄加预测蛋白质关键词的能力,例如: “细胞质”,仅来自序列。 对于 Paen 和 General 数据集,此功能随着规模的扩大而平稳提高。 对于 CASPSimSeq 集,它的缩放速度更慢并开始饱和,反映出与训练集中序列的序列相似性较低。
## Sequence Here is the sequence: [START_AMINO]MQKSPLERASVISKLFFSWPGPILRKGYRQHLKLSDIYQIPSVDSADNLSEKLERE...[END_AMINO]
### Ground-Truth Keywords ATP-binding, Cell membrane, Chloride, Chloride channel, Endoplasmic reticulum, Endosome, Glycoprotein, Ion channel, Ion transport, Isomerase, Isopeptide bond, Lipoprotein, Membrane, Nucleotide-binding, Nucleus, Palmitate, Phosphoprotein, Reference proteome, Repeat, Transmembrane, Transmembrane helix, Transport, Ubl conjugation ### Galactica 30B Predicted Keywords ATP-binding, Cell membrane, Chloride, Chloride channel, Endoplasmic reticulum, Endosome, Glycoprotein, Ion channel, Ion transport, Isomerase, Isopeptide bond, Lipoprotein, Membrane, Nucleotide-binding, Nucleus, Palmitate, Phosphoprotein, Reference proteome, Repeat, Transmembrane, Transmembrane helix, Transport, Ubl conjugation
图 20: 蛋白质关键词预测 所示示例是来自 PaenSeq Holdout 的 Q108U0,这是一种来自非洲象的囊性纤维化跨膜电导调节剂。 训练集中序列相似性最接近的蛋白质是 Q2QLA3 蛋白质,这是一种来自马的囊性纤维化跨膜电导规则,具有 91.8% 的序列相似性。

我们在表17中报告了结果。 F1 保留集的分数随着规模的增加而增加,这表明卡拉狄加可以通过从序列推断来学习关键字。 然而,我们看到 CASPSimSeq 的饱和度,表明这种能力取决于序列与集中序列的相似程度。 这在图 20 的示例中得到了体现,其中,卡拉狄加利用来自不同生物体的相似蛋白质的知识(训练集中的最大序列相似性为 91.8%)来帮助注释。

Protein Keyword Prediction
Model Param (bn) CASPSimSeq PaenSeq UniProtSeq
GAL 125M 0.1 10.5% 9.3% 15.2%
GAL 1.3B 1.3 17.4% 26.0% 21.9%
GAL 6.7B 6.7 18.4% 33.3% 25.1%
GAL 30B 30 22.0% 42.6% 40.8%
GAL 120B 120 21.9% 54.5% 48.7%
表 17: 蛋白质关键词预测 显示的指标是 F1 分数。 性能随着坚持集的规模而提高。 请注意,我们不包括 CASPSeq,因为它们没有可以测试的 UniProt 关键字。

我们试图将蛋白质序列中的注意力可视化,但我们没有观察到任何具有生物学解释的东西(例如对域的注意力)。 我们的工作假设是,卡拉狄加已经学会了一种隐式的序列相似性度量,它用来关联预测的关键词,但这不能从它所关注的地方直接解释。 这与我们的化学分析不同,化学分析的结果可以根据对潜在原子结构的关注来解释。

5.7.3 蛋白质功能说明

作为下一个测试,我们着眼于从序列中生成蛋白质功能的自由形式描述。 我们查看 UniProt 函数描述并与卡拉狄加生成的描述进行比较。

我们在表18中报告了结果。 ROUGE-L 分数在所有坚持组中平稳增加。 我们在 PaenSeq 的图 21 中展示了背页的示例。 该蛋白是来自岩蹄兔 (Q7Y8J5) 的细胞色素 b 蛋白。 训练集中相似性最接近的序列是来自侏儒河马 (O03363) 的细胞色素 b 蛋白,具有 83% 的序列相似性。 在这种情况下,我们从描述中得到了完美的预测。

Protein Function Prediction
Model Param (bn) CASPSimSeq PaenSeq UniProtSeq
GAL 125M 0.1 0.062 0.073 0.061
GAL 1.3B 1.3 0.069 0.084 0.079
GAL 6.7B 6.7 0.109 0.137 0.111
GAL 30B 30 0.137 0.196 0.186
GAL 120B 120 0.252 0.272 0.252
表 18: 蛋白质功能预测 显示的指标为 ROUGE-L。 性能随着规模的扩大而提高。
This is the sequence: [START_AMINO]MTNIRKNHPLLKTINDAFIDLPTPSNISTWWNFGSLLGACLIIQVLTGLFLAMHYTSDT...[END_AMINO]
### Ground-Truth Description Component of the ubiquinol-cytochrome c reductase complex (complex III or cytochrome b-c1 complex) that is part of the mitochondrial respiratory chain. The b-c1 complex mediates electron transfer from ubiquinol to cytochrome c. Contributes to the generation of a proton gradient across the mitochondrial membrane that is then used for ATP synthesis. ### Galactica 120B Predicted Description Component of the ubiquinol-cytochrome c reductase complex (complex III or cytochrome b-c1 complex) that is part of the mitochondrial respiratory chain. The b-c1 complex mediates electron transfer from ubiquinol to cytochrome c. Contributes to the generation of a proton gradient across the mitochondrial membrane that is then used for ATP synthesis.
图 21: 蛋白质描述预测 所示示例是来自 PaenSeq Holdout 的 Q7Y8J5,这是一种来自岩蹄兔的细胞色素 b 蛋白。 训练集中序列相似性最接近的蛋白质是 O03363 蛋白质,这是一种来自侏儒河马的细胞色素 b 蛋白质,具有 83% 的序列相似性。

与关键字预测任务一样,卡拉狄加似乎是根据与训练中看到的相似序列进行匹配来进行学习,并使用它来形成描述。 这表明蛋白质序列的语言模型可以作为现有搜索方法(例如 BLAST 和 MMseqs2)的有用替代方法(Altschul 等人,1990;Steinegger 和 Söding,2017)

6 毒性和偏差

在本节中,我们研究卡拉狄加模型的毒性和偏差。 我们评估与刻板印象、毒性和错误信息相关的基准。 我们将结果与其他语言模型进行比较。 我们发现卡拉狄加比现有语言模型的偏见和毒性要小得多。

6.1 偏见和刻板印象

在以下评估中,我们使用四个广泛使用的基准来调查卡拉狄加检测(和生成)有害刻板印象和仇恨言论的能力。

6.1.1 乌鸦对

CrowS-Pairs
Bias type text-davinci-002 OPT 175B Galactica 120B
Race 64.7 68.6 59.9
Socioeconomic 73.8 76.2 65.7
Gender 62.6 65.7 51.9
Disability 76.7 76.7 66.7
Nationality 61.6 62.9 51.6
Sexual-orientation 76.2 78.6 77.4
Physical-appearance 74.6 76.2 58.7
Religion 73.3 68.6 67.6
Age 64.4 67.8 69.0
Overall 67.2 69.5 60.5
表 19: 乌鸦配对结果 除了性取向和年龄之外,卡拉狄加在所有类别中都表现出明显较低的刻板偏见。

CrowS-Pairs 是 1,508 个众包句子对的集合,一对是“多”刻板印象,一对是“少”刻板印象,涵盖九个特征(Nangia 等人,2020) 这些特征包括种族、宗教、社会经济地位、年龄、残疾、国籍、性取向、外貌和性别。 语言模型对刻板内容的偏好是通过计算首选“更多”刻板句子的示例比例来衡量的(由对数似然确定)。 分数越高表明模型的偏见越有害,而没有偏见的理想模型得分为 50%。

我们在表 19 中报告了《卡拉狄加》和其他语言模型的结果。 与最新的 GPT-3 (text-davinci-002) 和 OPT 175B 相比,《卡拉狄加》在大多数类别中表现出明显较低的刻板偏见(性取向和年龄除外)。 与其他型号相比,卡拉狄加获得了 60.5% 的更高整体得分。 OPT 等语言模型使用 Pushshift.io Reddit 语料库作为主要数据源,这可能导致模型学习更多歧视性关联(Zhang 等人,2022) 卡拉狄加接受了科学语料库的训练,其中刻板印象和歧视性文本的发生率可能较低。

6.1.2立体声集

StereoSet
Category text-davinci-002 OPT 175B Galactica 120B
LMS () 78.4 74.1 75.2
Prof. SS () 63.4 62.6 57.2
ICAT () 57.5 55.4 64.3
LMS () 75.6 74.0 74.6
Gend. SS () 66.5 63.6 59.1
ICAT () 50.6 53.8 61.0
LMS () 80.8 84.0 81.4
Reli. SS () 59.0 59.0 55.1
ICAT () 66.3 68.9 73.1
LMS () 77.0 74.9 74.5
Race SS () 57.4 56.8 54.8
ICAT () 65.7 64.8 67.3
LMS () 77.6 74.8 75.0
Overall SS () 60.8 59.9 56.2
ICAT () 60.8 60.0 65.6
表 20: StereoSet 结果 在 ICAT 分数上,卡拉狄加的表现优于所有类别的所有模型。

StereoSet 旨在衡量跨职业、宗教、性别和种族的刻板偏见(Nadeem 等人,2021) 该基准测试包含两项任务:句内任务和句间任务,每个开发集中都有大约 2,100 个示例。

  • 句内任务:刻板印象和相关上下文位于同一个句子中。

  • 句子间任务:上下文和刻板印象位于不同(连续)的句子中。

除了句子的立体和反立体变体之外,StereoSet 中的每个示例都包含一个不相关的句子。 该句子用于测量语言建模分数 (LMS) 和刻板印象分数 (SS)。 这两个指标结合起来形成理想化上下文关联测试分数(ICAT),它是偏见检测和语言建模的平衡衡量标准。 理想的、公正的语言模型的 LMS 得分为 100,SS 得分为 50,ICAT 得分为 100。

我们在表 20 中报告结果。 在 ICAT 总体得分的所有类别中,卡拉狄加都优于其他模型。

6.1.3毒性

Refer to caption
图 22: RealToxicityPrompts 上的毒性率 即使我们增加了最初的即时毒性,《卡拉狄加》的毒性持续率也要低得多。

为了测量毒性,我们使用 Gehman 等人 (2020) 中引入的 RealToxicityPrompts (RTP) 基准。 我们遵循 Zhang 等人 (2022) 的相同设置,并使用核心采样 (p=0.9) 对 RTP 中的 5000 个随机采样提示中的每一个进行 25 代 20 个 Token 的采样。 我们使用提示生成序列(即延续),然后由 Perspective API 提供的毒性分类器进行评分555https://github.com/conversationai/perspectiveapi

22 绘制了结果。 该图表显示了连续的平均毒性概率(y 轴),在原始提示的桶状毒性(x 轴)上分层。 卡拉狄加的毒性率比其他模型低得多。

6.2真实的质量保证

TruthfulQA 是衡量语言模型生成答案真实性的基准(Lin 等人,2022a) 它包含 817 个问题,涵盖健康、法律、金融和其他类别。 我们与其他已发布的语言模型进行比较。 我们在表 21 中报告结果。 《卡拉狄加》在该基准测试中超过了其他语言模型的性能。 然而,绝对性能仍然较低。 考虑到我们语料库的策划性质,这表明数据本身并不会导致语言模型在这项任务上陷入困境。

TruthfulQA
Model MC1 (Acc) MC1 (Std)
OPT 175B 21% 0.13
BLOOM 176B 19% 0.07
GAL 125M 19% 0.11
GAL 1.3B 19% 0.15
GAL 6.7B 19% 0.03
GAL 30B 24% 0.05
GAL 120B 26% 0.02
表 21: 真实的 QA 结果 卡拉狄加展现出优于其他语言模型的性能,并且性能随着规模的增长而提高。 但速度缓慢且水平较低。

7 局限性和未来的工作

7.1 限制

我们将在本节中介绍一些工作的局限性。

语料库的局限性

我们的语料库有一些外部和内部的限制。 主要的外部限制是我们对开放获取资源的使用的限制,而论文和教科书等许多科学知识都不是开放获取的。 通过访问这些封闭的知识来源,绩效可能会大大提高。 我们还使用自我施加的约束,例如限制这项工作的分子和蛋白质的数量;如果没有这些限制,由于这些模式的语料库更大,我们可能会看到可观的性能提升。

语料库效果与提示效果

在几个基准测试中,我们显示了相对于现有语言模型的性能提升,但我们没有具体区分预训练中包含的提示与核心科学语料库的影响。 在未来的工作中,我们可能需要理清这些影响,以便了解在不迅速提升的情况下仅使用科学语料库是否可以实现一般语言能力。

引用偏差

虽然我们证明该模型在规模上接近真实的引文分布,但 120B 规模模型仍然存在对热门论文的一些偏见,因此该模型在用于生产环境之前可能需要进行增强。

提示预训练与配置参数

我们在本文中选择了前者,但理想情况下,我们需要沿着 Chung 等人 (2022) 最近的工作来探索后者可以实现什么。 这项工作的局限性在于,我们不通过消融进行直接比较,从而明确方法之间的权衡。

基本知识

虽然卡拉狄加通过维基百科等来源吸收了广泛的社会知识 - 例如120B 知道亚庇是马来西亚沙巴州的首府 - 我们不建议将其用于需要此类知识的任务,因为这不是预期的用例。

文本作为一种情态

虽然我们已经证明基于文本的变形金刚在科学现象的文本表示方面具有惊人的强大功能,但我们警告不要认为文本就是您所需要的一切。 例如,在化学中,几何学是决定意义的基本语言,但卡拉狄加没有几何学的概念;例如原子的 3D 坐标。

7.2未来的工作

对于基础模型的开发,我们强调了几个可能值得追求的方向。

新目标函数

正如 U-PaLM 最近展示的那样,通过混合去噪训练可能会获得进一步的收益(Tay 等人, 2022b; Chung 等人, 2022) 我们怀疑这可能对蛋白质序列等科学模式有益,因为从左到右的 LM 目标相当有限。

更大的上下文窗口

在这项工作中,我们使用 2048 标记的最大上下文窗口长度。 扩展这一点可能有利于理解长篇科学文档,例如教科书以及具有较长模态序列(例如长蛋白质序列)的文档。

扩展到图像

如果不捕捉图像,我们就无法充分捕捉科学知识。 这是一个自然的后续项目,尽管它可能需要一些架构修改才能使其正常工作。 现有的工作如Alayrac 等人 (2022) 已经展示了如何用这种模式扩展大语言模型。

更多<工作>示例

我们认为<work>可以成为通用的推理词符,我们希望在这个方向上投入更多,包括增加提示符的多样性和探索在更多基准上的性能。

确认

即使语言模型随着规模的扩大而变得更加准确,我们也需要保证它们的生成是正确和真实的。 开发这一层对于科学应用之外的语言模型的生产应用至关重要。

持续学习

我们应该从头开始重新训练以融入新的科学知识还是从旧的检查点进行训练? 这是一个悬而未决的问题,需要进一步研究来找到将新知识纳入模型的最佳程序。

检索增强

虽然我们已经展示了大型语言模型如何吸收大量科学知识,但检索对于细粒度类型的知识也有一席之地,我们相信这是补充 Transformer 灵活权重记忆的一个强有力的方向。

8讨论与结论

半个多世纪以来,获取科学知识的主要方式一直是通过存储和检索范式。 这种方法的局限性在于信息的推理、组合和组织仍然依赖于人类的努力。 这导致了严重的知识吞吐量瓶颈。 在这项工作中,我们探讨了语言模型如何打破这种范式,并为人类与知识交互带来一个新的界面。

我们表明,语言模型对技术知识(例如 LaTeX 方程和化学反应)的吸收能力惊人地强大,并且这些功能往往会随着模型大小而平滑地扩展。 从长远来看,语言模型的上下文关联能力可能比搜索引擎具有显着的优势。 我们在引文预测中证明了这一点,在该任务中,语言模型的性能优于经过调整的稀疏和密集检索管道。 语言模型可能会在未来几年为探索文献和科学知识体系提供有价值的新工具。

我们还证明了语言模型可以组成一个精心策划的知识库,以便在知识密集型问答任务中表现良好。 这包括以逐步推理的方式组合知识。 我们证明,通过工作记忆词符方法,我们可以在数学 MMLU 和 MATH 基准测试中实现优于现有方法的强大性能。 我们怀疑像数学这样的任务原则上可以通过语言模型方法来解决。 当前的瓶颈是高质量分步数据集的可用性。 然而,语言模型不会像人类一样执行这些任务,除非它们进行了支持自适应计算的架构更改。

我们还对大语言模型作为科学模式和自然语言之间桥梁的潜力进行了初步调查。 我们证明卡拉狄加可以通过自我监督来学习 IUPAC 命名等任务。 我们还表明,可以在自然语言提示下制定像 MoleculeNet 这样的药物发现任务,并且无需直接微调即可取得良好的结果。 最后,我们展示了自动蛋白质标注等任务的潜力。 总而言之,增加连接自然语言和自然序列的数据集的数量(和大小)可能会进一步提高性能。

总而言之,我们认为语言模型有很大的潜力来承担目前人类专业领域的知识任务。 我们开源这些模型,以便其他人可以在我们的工作基础上进行构建,我们期待看到开放机器学习社区将如何扩展它。

致谢

感谢 Susan Zhang、Stephen Roller、Naman Goyal 等人对使用 Metaseq 的支持。 我们建立在他们通过 OPT 项目(Zhang 等人,2022)实现的开放大语言模型训练基础上。

感谢 Iliyan Zarov、Lukas Blecher、Jian Xiang Kuan 和 Mikhail Pershin 对该项目的贡献。

感谢 Faisal Azhar 和 Joe Spisak 在交付该项目时提供的宝贵支持。

感谢 Antonine Bordes、Laurens van der Maaten 和 Joelle Pineau 的领导支持以及对该项目的信任。 另外感谢 Laurens 对本文提出的宝贵反馈。

感谢 Geeta Chauhan、Hamid Shojanazeri 和 Eric Han 为加快推理速度提供的帮助。

感谢许多其他人在过去一年中提出的意见和建议:Patrick Lewis、Pontus Stenetorp、Timo Schick、Sebastian Riedel、Soumith Chintala。

感谢开源创建者,他们为我们提供了库、数据集和其他工具。 您的努力加速了我们的努力;我们开源我们的模型来加速您的模型。

感谢我们在训练 120B 模型时 GPU 节点没有死掉。

参考

  • Alayrac et al. (2022) Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, and Karen Simonyan. Flamingo: a visual language model for few-shot learning, 2022. URL https://arxiv.org/abs/2204.14198.
  • Altschul et al. (1990) S F Altschul, W Gish, W Miller, E W Myers, and D J Lipman. Basic local alignment search tool. J. Mol. Biol., 215(3):403–410, October 1990.
  • Aribandi et al. (2021) Vamsi Aribandi, Yi Tay, Tal Schuster, Jinfeng Rao, Huaixiu Steven Zheng, Sanket Vaibhav Mehta, Honglei Zhuang, Vinh Q. Tran, Dara Bahri, Jianmo Ni, Jai Gupta, Kai Hui, Sebastian Ruder, and Donald Metzler. Ext5: Towards extreme multi-task scaling for transfer learning, 2021. URL https://arxiv.org/abs/2111.10952.
  • arXiv (2022) arXiv. arXiv Monthly Submissions, 2022. URL https://arxiv.org/stats/monthly_submissions.
  • Banino et al. (2021) Andrea Banino, Jan Balaguer, and Charles Blundell. Pondernet: Learning to ponder. CoRR, abs/2107.05407, 2021. URL https://arxiv.org/abs/2107.05407.
  • Beltagy et al. (2019) Iz Beltagy, Arman Cohan, and Kyle Lo. Scibert: Pretrained contextualized embeddings for scientific text. CoRR, abs/1903.10676, 2019. URL http://arxiv.org/abs/1903.10676.
  • Black et al. (2022) Sid Black, Stella Biderman, Eric Hallahan, Quentin Anthony, Leo Gao, Laurence Golding, Horace He, Connor Leahy, Kyle McDonell, Jason Phang, Michael Pieler, USVSN Sai Prashanth, Shivanshu Purohit, Laria Reynolds, Jonathan Tow, Ben Wang, and Samuel Weinbach. Gpt-neox-20b: An open-source autoregressive language model, 2022. URL https://arxiv.org/abs/2204.06745.
  • Blodgett et al. (2020) Su Lin Blodgett, Solon Barocas, Hal Daumé III, and Hanna M. Wallach. Language (technology) is power: A critical survey of "bias" in NLP. CoRR, abs/2005.14050, 2020. URL https://arxiv.org/abs/2005.14050.
  • Borgeaud et al. (2021) Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, and Laurent Sifre. Improving language models by retrieving from trillions of tokens, 2021. URL https://arxiv.org/abs/2112.04426.
  • Bornmann and Mutz (2014) Lutz Bornmann and Rüdiger Mutz. Growth rates of modern science: A bibliometric analysis. CoRR, abs/1402.4578, 2014. URL http://arxiv.org/abs/1402.4578.
  • Briol et al. (2015) François-Xavier Briol, Chris Oates, Mark Girolami, and Michael A Osborne. Frank-wolfe bayesian quadrature: Probabilistic integration with theoretical guarantees. Advances in Neural Information Processing Systems, 28, 2015.
  • Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. CoRR, abs/2005.14165, 2020. URL https://arxiv.org/abs/2005.14165.
  • Bush (1945) Vannevar Bush. As We May Think. Atlantic Monthly 176 (July 1945), pages 101–108, 1945.
  • Cachola et al. (2020) Isabel Cachola, Kyle Lo, Arman Cohan, and Daniel S. Weld. TLDR: extreme summarization of scientific documents. CoRR, abs/2004.15011, 2020. URL https://arxiv.org/abs/2004.15011.
  • Chowdhery et al. (2022) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways, 2022. URL https://arxiv.org/abs/2204.02311.
  • Chung et al. (2022) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, and Jason Wei. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/2210.11416.
  • Clark et al. (2019) Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. Boolq: Exploring the surprising difficulty of natural yes/no questions. CoRR, abs/1905.10044, 2019. URL http://arxiv.org/abs/1905.10044.
  • Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. CoRR, abs/2110.14168, 2021. URL https://arxiv.org/abs/2110.14168.
  • Dasigi et al. (2019) Pradeep Dasigi, Nelson F. Liu, Ana Marasović, Noah A. Smith, and Matt Gardner. Quoref: A reading comprehension dataset with questions requiring coreferential reasoning. In EMNLP, 2019.
  • Dasigi et al. (2021) Pradeep Dasigi, Kyle Lo, Iz Beltagy, Arman Cohan, Noah A. Smith, and Matt Gardner. A dataset of information-seeking questions and answers anchored in research papers. In NAACL, 2021.
  • Dev et al. (2019) Sunipa Dev, Tao Li, Jeff M. Phillips, and Vivek Srikumar. On measuring and mitigating biased inferences of word embeddings. CoRR, abs/1908.09369, 2019. URL http://arxiv.org/abs/1908.09369.
  • Dinan et al. (2018) Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, and Jason Weston. Wizard of wikipedia: Knowledge-powered conversational agents, 2018. URL https://arxiv.org/abs/1811.01241.
  • (23) Henri A. Favre and Warren H. Powerll. Nomenclature of organic chemistry: Iupac recommendations and preferred names 2013.
  • Galilei (1623) Galileo Galilei. Assayer. 1623.
  • Gao et al. (2022) Luyu Gao, Zhuyun Dai, Panupong Pasupat, Anthony Chen, Arun Tejasvi Chaganty, Yicheng Fan, Vincent Y. Zhao, Ni Lao, Hongrae Lee, Da-Cheng Juan, and Kelvin Guu. Attributed text generation via post-hoc research and revision, 2022. URL https://arxiv.org/abs/2210.08726.
  • García-Ortegón et al. (2022) Miguel García-Ortegón, Gregor N. C. Simm, Austin J. Tripp, José Miguel Hernández-Lobato, Andreas Bender, and Sergio Bacallado. Dockstring: Easy molecular docking yields better benchmarks for ligand design. Journal of Chemical Information and Modeling, 62(15):3486–3502, 2022. doi: 10.1021/acs.jcim.1c01334. URL https://doi.org/10.1021/acs.jcim.1c01334. PMID: 35849793.
  • Gehman et al. (2020) Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A. Smith. Realtoxicityprompts: Evaluating neural toxic degeneration in language models. ArXiv, abs/2009.11462, 2020.
  • GenBank (2022) GenBank. GenBank and WGS Statistics, 2022. URL https://www.ncbi.nlm.nih.gov/genbank/statistics.
  • Graves (2016) Alex Graves. Adaptive computation time for recurrent neural networks, 2016. URL https://arxiv.org/abs/1603.08983.
  • GROBID (2008–2022) GROBID. Grobid. https://github.com/kermitt2/grobid, 2008–2022.
  • Gu et al. (2020) Yu Gu, Robert Tinn, Hao Cheng, Michael Lucas, Naoto Usuyama, Xiaodong Liu, Tristan Naumann, Jianfeng Gao, and Hoifung Poon. Domain-specific language model pretraining for biomedical natural language processing. CoRR, abs/2007.15779, 2020. URL https://arxiv.org/abs/2007.15779.
  • Gunasekara et al. (2019) Chulaka Gunasekara, Jonathan K. Kummerfeld, Lazaros Polymenakos, and Walter Lasecki. DSTC7 task 1: Noetic end-to-end response selection. In Proceedings of the First Workshop on NLP for Conversational AI, pages 60–67, Florence, Italy, August 2019. Association for Computational Linguistics. doi: 10.18653/v1/W19-4107. URL https://aclanthology.org/W19-4107.
  • Hendrycks and Gimpel (2016) Dan Hendrycks and Kevin Gimpel. Gaussian error linear units (gelus), 2016. URL https://arxiv.org/abs/1606.08415.
  • Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding, 2020. URL https://arxiv.org/abs/2009.03300.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the MATH dataset. CoRR, abs/2103.03874, 2021. URL https://arxiv.org/abs/2103.03874.
  • Hernandez et al. (2022) Danny Hernandez, Tom Brown, Tom Conerly, Nova DasSarma, Dawn Drain, Sheer El-Showk, Nelson Elhage, Zac Hatfield-Dodds, Tom Henighan, Tristan Hume, Scott Johnston, Ben Mann, Chris Olah, Catherine Olsson, Dario Amodei, Nicholas Joseph, Jared Kaplan, and Sam McCandlish. Scaling laws and interpretability of learning from repeated data, 2022. URL https://arxiv.org/abs/2205.10487.
  • Hirschmann (1964) Winfred B. Hirschmann. Profit from the Learning Curve, January 1964.
  • Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, Tom Hennigan, Eric Noland, Katie Millican, George van den Driessche, Bogdan Damoc, Aurelia Guy, Simon Osindero, Karen Simonyan, Erich Elsen, Jack W. Rae, Oriol Vinyals, and Laurent Sifre. Training compute-optimal large language models, 2022. URL https://arxiv.org/abs/2203.15556.
  • Honda et al. (2019) Shion Honda, Shoi Shi, and Hiroki R. Ueda. Smiles transformer: Pre-trained molecular fingerprint for low data drug discovery. 2019.
  • Hong et al. (2022) Zhi Hong, Aswathy Ajith, Gregory Pauloski, Eamon Duede, Carl Malamud, Roger Magoulas, Kyle Chard, and Ian Foster. Scholarbert: Bigger is not always better, 2022. URL https://arxiv.org/abs/2205.11342.
  • Irwin et al. (2021) Ross Irwin, Spyridon Dimitriadis, Jiazhen He, and Esben Bjerrum. Chemformer: A pre-trained transformer for computational chemistry. ChemRxiv, 2021. doi: 10.26434/chemrxiv-2021-v2pnn.
  • Izacard et al. (2021) Gautier Izacard, Mathilde Caron, Lucas Hosseini, Sebastian Riedel, Piotr Bojanowski, Armand Joulin, and Edouard Grave. Towards unsupervised dense information retrieval with contrastive learning. CoRR, abs/2112.09118, 2021. URL https://arxiv.org/abs/2112.09118.
  • Izacard et al. (2022) Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. Few-shot learning with retrieval augmented language models, 2022.
  • Jackson (1990) Peter Jackson. Introduction to Expert Systems. Addison-Wesley Longman Publishing Co., Inc., USA, 2nd edition, 1990. ISBN 0201175789.
  • Jin et al. (2019) Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W. Cohen, and Xinghua Lu. Pubmedqa: A dataset for biomedical research question answering. CoRR, abs/1909.06146, 2019. URL http://arxiv.org/abs/1909.06146.
  • Johnson et al. (2019) Jeff Johnson, Matthijs Douze, and Hervé Jégou. Billion-scale similarity search with GPUs. IEEE Transactions on Big Data, 7(3):535–547, 2019.
  • Joulin et al. (2016) Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759, 2016.
  • Jumper et al. (2021) John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, Alex Bridgland, Clemens Meyer, Simon A A Kohl, Andrew J Ballard, Andrew Cowie, Bernardino Romera-Paredes, Stanislav Nikolov, Rishub Jain, Jonas Adler, Trevor Back, Stig Petersen, David Reiman, Ellen Clancy, Michal Zielinski, Martin Steinegger, Michalina Pacholska, Tamas Berghammer, Sebastian Bodenstein, David Silver, Oriol Vinyals, Andrew W Senior, Koray Kavukcuoglu, Pushmeet Kohli, and Demis Hassabis. Highly accurate protein structure prediction with AlphaFold. Nature, 596(7873):583–589, 2021. doi: 10.1038/s41586-021-03819-2.
  • Kaplan et al. (2020) Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. CoRR, abs/2001.08361, 2020. URL https://arxiv.org/abs/2001.08361.
  • Kembhavi et al. (2017) Aniruddha Kembhavi, Minjoon Seo, Dustin Schwenk, Jonghyun Choi, Ali Farhadi, and Hannaneh Hajishirzi. Are you smarter than a sixth grader? textbook question answering for multimodal machine comprehension. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5376–5384, 2017.
  • Khashabi et al. (2020) Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system, 2020. URL https://arxiv.org/abs/2005.00700.
  • Khot et al. (2018) Tushar Khot, Ashish Sabharwal, and Peter Clark. Scitail: A textual entailment dataset from science question answering. In AAAI, 2018.
  • Khot et al. (2020) Tushar Khot, Peter Clark, Michal Guerquin, Peter Alexander Jansen, and Ashish Sabharwal. Qasc: A dataset for question answering via sentence composition. ArXiv, abs/1910.11473, 2020.
  • Kim et al. (2004) J.-D. Kim, T. Ohta, Y. Tsuruoka, Y. Tateisi, and N. Collier. Introduction to the bio-entity recognition task at jnlpba. International Joint Workshop on Natural Language Processing in Biomedicine and its Applications, 2004.
  • Kojima et al. (2022) Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners, 2022. URL https://arxiv.org/abs/2205.11916.
  • Krallinger et al. (2004) Martin Krallinger, Obdulia Rabal, Florian Leitner, David Salgado Miguel Vazquez, Zhiyong Lu, Robert Leaman, Donghong Ji andDaniel M Lowe andRoger A Sayle andRiza Theresa Batista-Navarro Yanan Lu, Rafal Rak, Torsten Huber, Tim Rocktäschel, Sérgio Matos andDavid Campos, Buzhou Tang, Hua Xu, Tsendsuren Munkhdalai, Keun Ho Ryu, SV Ramanan, Senthil Nathan, Slavko Žitnik, Marko Bajec, Lutz Weber, Matthias Irmer, Saber A Akhondi, Jan A Kors, Shuo Xu, Xin An, Utpal Kumar Sikdar, Asif Ekbal, Thaer M Dieb Masaharu Yoshioka, Miji Choi, Karin Verspoor, Madian Khabsa, C Lee Giles, Hongfang Liu, Komandur Elayavilli Ravikumar, Francisco M Couto Andre Lamurias, Hong-Jie Dai, Richard Tzong-Han Tsai, Caglar Ata, Tolga Can, Anabel Usié, Rui Alves, Isabel Segura-Bedmar, Paloma Martínez, Julen Oyarzabal, and Alfonso Valencia. The chemdner corpus of chemicals and drugs and its annotation principles. J Cheminform, 2004.
  • Krasnov et al. (2021) Lev Krasnov, Ivan Khokhlov, Maxim V. Fedorov, and Sergey Sosnin. Transformer-based artificial neural networks for the conversion between chemical notations, 2021. URL https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00512-4.
  • Kurita et al. (2019) Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W. Black, and Yulia Tsvetkov. Measuring bias in contextualized word representations. CoRR, abs/1906.07337, 2019. URL http://arxiv.org/abs/1906.07337.
  • Lee et al. (2022) Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, and Nicholas Carlini. Deduplicating training data makes language models better. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2022.
  • Lewis et al. (2020a) Patrick Lewis, Myle Ott, Jingfei Du, and Veselin Stoyanov. Pretrained language models for biomedical and clinical tasks: Understanding and extending the state-of-the-art. In Proceedings of the 3rd Clinical Natural Language Processing Workshop, pages 146–157, Online, November 2020a. Association for Computational Linguistics. doi: 10.18653/v1/2020.clinicalnlp-1.17. URL https://aclanthology.org/2020.clinicalnlp-1.17.
  • Lewis et al. (2020b) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks, 2020b. URL https://arxiv.org/abs/2005.11401.
  • Lewkowycz et al. (2022) Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, and Vedant Misra. Solving quantitative reasoning problems with language models, 2022. URL https://arxiv.org/abs/2206.14858.
  • Li et al. (2016) Jiao Li, Yueping Sun, Robin J Johnson, Daniela Sciaky, Chih-Hsuan Wei, Robert Leaman, Allan Peter Davis, Carolyn J Mattingly, Thomas C Wiegers, and Zhiyong Lu. BioCreative V CDR task corpus: a resource for chemical disease relation extraction. Database (Oxford), 2016:baw068, May 2016.
  • Licklider (1960) J.R. Licklider. Man-Computer Symbiosis. IRE Transactions on Human Factors in Electronics, HFE-1, pages 4–11, 1960.
  • Lin et al. (2019) Kevin Lin, Oyvind Tafjord, Peter Clark, and Matt Gardner. Reasoning over paragraph effects in situations. ArXiv, abs/1908.05852, 2019.
  • Lin et al. (2022a) Stephanie Lin, Jacob Hilton, and Owain Evans. TruthfulQA: Measuring how models mimic human falsehoods. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 3214–3252, Dublin, Ireland, May 2022a. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.229. URL https://aclanthology.org/2022.acl-long.229.
  • Lin et al. (2022b) Zeming Lin, Halil Akin, Roshan Rao, Brian Hie, Zhongkai Zhu, Wenting Lu, Allan dos Santos Costa, Maryam Fazel-Zarandi, Tom Sercu, Sal Candido, and Alexander Rives. Language models of protein sequences at the scale of evolution enable accurate structure prediction. bioRxiv, 2022b. doi: 10.1101/2022.07.20.500902. URL https://www.biorxiv.org/content/early/2022/07/21/2022.07.20.500902.
  • Lo et al. (2019a) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel S. Weld. GORC: A large contextual citation graph of academic papers. CoRR, abs/1911.02782, 2019a. URL http://arxiv.org/abs/1911.02782.
  • Lo et al. (2019b) Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, and Daniel S. Weld. GORC: A large contextual citation graph of academic papers. CoRR, abs/1911.02782, 2019b. URL http://arxiv.org/abs/1911.02782.
  • Loshchilov and Hutter (2017) Ilya Loshchilov and Frank Hutter. Fixing weight decay regularization in adam. CoRR, abs/1711.05101, 2017. URL http://arxiv.org/abs/1711.05101.
  • Lowe et al. (2011) Daniel M. Lowe, Peter T. Corbett, Peter Murray-Rust, and Robert C. Glen. Chemical name to structure: Opsin, an open source solution, 2011. URL https://pubs.acs.org/doi/full/10.1021/ci100384d.
  • Marx (2013) Vivien Marx. The big challenges of big data. Nature, 498:255–260, 2013. URL https://www.nature.com/articles/498255a.
  • Massey (1951) Frank J. Massey. The kolmogorov-smirnov test for goodness of fit. Journal of the American Statistical Association, 46(253):68–78, mar 1951. doi: 10.1080/01621459.1951.10500769. URL https://doi.org/10.1080%2F01621459.1951.10500769.
  • Mihaylov et al. (2018) Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In EMNLP, 2018.
  • Mitchell et al. (2022) Eric Mitchell, Charles Lin, Antoine Bosselut, Christopher D. Manning, and Chelsea Finn. Memory-based model editing at scale, 2022. URL https://arxiv.org/abs/2206.06520.
  • Nadeem et al. (2021) Moin Nadeem, Anna Bethke, and Siva Reddy. StereoSet: Measuring stereotypical bias in pretrained language models. In Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5356–5371, Online, August 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.acl-long.416. URL https://aclanthology.org/2021.acl-long.416.
  • Nangia et al. (2020) Nikita Nangia, Clara Vania, Rasika Bhalerao, and Samuel R. Bowman. CrowS-pairs: A challenge dataset for measuring social biases in masked language models. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1953–1967, Online, November 2020. Association for Computational Linguistics. doi: 10.18653/v1/2020.emnlp-main.154. URL https://aclanthology.org/2020.emnlp-main.154.
  • Nentidis et al. (2021) Anastasios Nentidis, Georgios Katsimpras, Eirini Vandorou, Anastasia Krithara, Luis Gascó, Martin Krallinger, and Georgios Paliouras. Overview of bioasq 2021: The ninth bioasq challenge on large-scale biomedical semantic indexing and question answering. CoRR, abs/2106.14885, 2021. URL https://arxiv.org/abs/2106.14885.
  • Nieschlag et al. (2010) E Nieschlag, HM Behre, and S Nieschlag. Andrology: Male reproductive health and dysfunction, 2010.
  • Nijkamp et al. (2022) Erik Nijkamp, Jeffrey Ruffolo, Eli N. Weinstein, Nikhil Naik, and Ali Madani. Progen2: Exploring the boundaries of protein language models, 2022. URL https://arxiv.org/abs/2206.13517.
  • Pafilis et al. (2013) Evangelos Pafilis, Sune P Frankild, Lucia Fanini, Sarah Faulwetter, Christina Pavloudi, Aikaterini Vasileiadou, Christos Arvanitidis, and Lars Juhl Jensen. The species and organisms resources for fast and accurate identification of taxonomic names in text. PloS one, 8(6), 2013.
  • Pal et al. (2022) Ankit Pal, Logesh Kumar Umapathi, and Malaikannan Sankarasubbu. Medmcqa : A large-scale multi-subject multi-choice dataset for medical domain question answering. 2022. doi: 10.48550/ARXIV.2203.14371. URL https://arxiv.org/abs/2203.14371.
  • Petroni et al. (2019) F. Petroni, T. Rocktäschel, A.H. Miller, P. Lewis, A. Bakhtin, Y. Wu, and S. Riedel. Language models as knowledge bases? In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2019, 2019.
  • Press et al. (2021) Ofir Press, Noah A. Smith, and Mike Lewis. Train short, test long: Attention with linear biases enables input length extrapolation. CoRR, abs/2108.12409, 2021. URL https://arxiv.org/abs/2108.12409.
  • Rae et al. (2021) Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, H. Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant M. Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake A. Hechtman, Laura Weidinger, Iason Gabriel, William S. Isaac, Edward Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Scaling language models: Methods, analysis & insights from training gopher. CoRR, abs/2112.11446, 2021. URL https://arxiv.org/abs/2112.11446.
  • Raffel et al. (2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. URL http://jmlr.org/papers/v21/20-074.html.
  • Rajan et al. (2021) K Rajan, A Zielesny, and C. Steinbeck. Stout: Smiles to iupac names using neural machine translation, 2021. URL https://jcheminf.biomedcentral.com/articles/10.1186/s13321-021-00512-4.
  • Ramsundar et al. (2019) Bharath Ramsundar, Peter Eastman, Patrick Walters, Vijay Pande, Karl Leswing, and Zhenqin Wu. Deep Learning for the Life Sciences. O’Reilly Media, 2019. https://www.amazon.com/Deep-Learning-Life-Sciences-Microscopy/dp/1492039837.
  • Razeghi et al. (2022) Yasaman Razeghi, Robert L. Logan, Matt Gardner, and Sameer Singh. Impact of pretraining term frequencies on few-shot reasoning, 2022. URL https://arxiv.org/abs/2202.07206.
  • Rives et al. (2021) Alexander Rives, Joshua Meier, Tom Sercu, Siddharth Goyal, Zeming Lin, Jason Liu, Demi Guo, Myle Ott, C. Lawrence Zitnick, Jerry Ma, and Rob Fergus. Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. Proceedings of the National Academy of Sciences, 118(15):e2016239118, 2021. doi: 10.1073/pnas.2016239118. URL https://www.pnas.org/doi/abs/10.1073/pnas.2016239118.
  • Ross et al. (2021) Jerret Ross, Brian Belgodere, Vijil Chenthamarakshan, Inkit Padhi, Youssef Mroueh, and Payel Das. Do large scale molecular language representations capture important structural information? CoRR, abs/2106.09553, 2021. URL https://arxiv.org/abs/2106.09553.
  • Sanh et al. (2021) Victor Sanh, Albert Webson, Colin Raffel, Stephen H. Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Teven Le Scao, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Tali Bers, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M. Rush. Multitask prompted training enables zero-shot task generalization, 2021. URL https://arxiv.org/abs/2110.08207.
  • Scialom et al. (2022) Thomas Scialom, Tuhin Chakrabarty, and Smaranda Muresan. Continual-t0: Progressively instructing 50+ tasks to language models without forgetting, 2022. URL https://arxiv.org/abs/2205.12393.
  • Sennrich et al. (2015) Rico Sennrich, Barry Haddow, and Alexandra Birch. Neural machine translation of rare words with subword units. CoRR, abs/1508.07909, 2015. URL http://arxiv.org/abs/1508.07909.
  • Sheng et al. (2019) Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. The woman worked as a babysitter: On biases in language generation. CoRR, abs/1909.01326, 2019. URL http://arxiv.org/abs/1909.01326.
  • Sheng et al. (2021) Emily Sheng, Kai-Wei Chang, Premkumar Natarajan, and Nanyun Peng. Societal biases in language generation: Progress and challenges. CoRR, abs/2105.04054, 2021. URL https://arxiv.org/abs/2105.04054.
  • Shin et al. (2020) Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, and Raghav Mani. Biomegatron: Larger biomedical domain language model. CoRR, abs/2010.06060, 2020. URL https://arxiv.org/abs/2010.06060.
  • Smith et al. (2008) Larry Smith, Lorraine K Tanabe, Rie Johnson nee Ando, Cheng-Ju Kuo, I-Fang Chung, Chun-Nan Hsu, Yu-Shi Lin, Roman Klinger, Christoph M Friedrich, Kuzman Ganchev, Manabu Torii, Hongfang Liu, Barry Haddow, Craig A Struble, Richard J Povinelli, Andreas Vlachos, William A Baumgartner Jr, Lawrence Hunter, Bob Carpenter, Richard Tzong-Han Tsai, Hong-Jie Dai, Feng Liu, Yifei Chen, Chengjie Sun, Sophia Katrenko, Pieter Adriaans, Christian Blaschke, Rafael Torres, Mariana Neves, Preslav Nakov, Anna Divoli, Manuel Maña-López, Jacinto Mata, and W John Wilbur. Overview of biocreative ii gene mention recognition. Genome Biology, 9, 2008.
  • Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karakaş, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bartłomiej Bojanowski, Batuhan Özyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, César Ferri Ramírez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Moseguí González, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Martínez-Plumed, Francesca Happé, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germán Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-López, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Schütze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fernández Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Kocoń, Jana Thompson, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Berant, Jörg Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Colón, Luke Metz, Lütfi Kerem Şenel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ramírez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, Mátyás Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Michał Swędrowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ramón Risco Delgado, Raphaël Millière, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Debnath Shyamolima, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Timothy Telleen-Lawton, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinran Zhao, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, and Ziyi Wu. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models, 2022. URL https://arxiv.org/abs/2206.04615.
  • Steinegger and Söding (2017) Martin Steinegger and Johannes Söding. MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets. Nature Biotechnology, 35(11):1026–1028, October 2017. doi: 10.1038/nbt.3988. URL https://doi.org/10.1038/nbt.3988.
  • Suzgun et al. (2022) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, and Jason Wei. Challenging big-bench tasks and whether chain-of-thought can solve them, 2022. URL https://arxiv.org/abs/2210.09261.
  • Taboureau et al. (2011) Olivier Taboureau, Sonny Kim Nielsen, Karine Audouze, Nils Weinhold, Daniel Edsgärd, Francisco S Roque, Irene Kouskoumvekaki, Alina Bora, Ramona Curpan, Thomas Skøt Jensen, Søren Brunak, and Tudor I Oprea. ChemProt: a disease chemical biology database. Nucleic Acids Res., 39(Database issue):D367–72, January 2011.
  • Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: A question answering challenge targeting commonsense knowledge. CoRR, abs/1811.00937, 2018. URL http://arxiv.org/abs/1811.00937.
  • Tay et al. (2022a) Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, and Donald Metzler. Scaling laws vs model architectures: How does inductive bias influence scaling?, 2022a. URL https://arxiv.org/abs/2207.10551.
  • Tay et al. (2022b) Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, and Mostafa Dehghani. Transcending scaling laws with 0.12022b. URL https://arxiv.org/abs/2210.11399.
  • Thoppilan et al. (2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, and Quoc Le. Lamda: Language models for dialog applications, 2022. URL https://arxiv.org/abs/2201.08239.
  • V et al. (2021) Venktesh V, Mukesh K. Mohania, and Vikram Goyal. Tagrec: Automated tagging of questions with hierarchical learning taxonomy. CoRR, abs/2107.10649, 2021. URL https://arxiv.org/abs/2107.10649.
  • Vaswani et al. (2017) Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. CoRR, abs/1706.03762, 2017. URL http://arxiv.org/abs/1706.03762.
  • Wei et al. (2021) Jason Wei, Maarten Bosma, Vincent Y. Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M. Dai, and Quoc V. Le. Finetuned language models are zero-shot learners, 2021. URL https://arxiv.org/abs/2109.01652.
  • Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models, 2022. URL https://arxiv.org/abs/2201.11903.
  • Weininger (1988) David Weininger. Smiles, a chemical language and information system. 1. introduction to methodology and encoding rules. Journal of Chemical Information and Computer Sciences, 28(1):31–36, 1988. doi: 10.1021/ci00057a005. URL https://doi.org/10.1021/ci00057a005.
  • Welbl et al. (2017) Johannes Welbl, Nelson F. Liu, and Matt Gardner. Crowdsourcing multiple choice science questions. ArXiv, abs/1707.06209, 2017.
  • Wheeler (1990) John Wheeler. Information, physics, quantum: The search for links. Zurek, W.H., Ed., Complexity, Entropy, and the Physics of Information, 1990.
  • Wigner (1959) Eugene Wigner. The unreasonable effectiveness of mathematics in the natural sciences. Communications on Pure and Applied Mathematics, 1959.
  • Wu et al. (2017) Zhenqin Wu, Bharath Ramsundar, Evan N. Feinberg, Joseph Gomes, Caleb Geniesse, Aneesh S. Pappu, Karl Leswing, and Vijay Pande. Moleculenet: A benchmark for molecular machine learning, 2017. URL https://arxiv.org/abs/1703.00564.
  • Xu et al. (2017) Yichong Xu, Jingjing Liu, Jianfeng Gao, Yelong Shen, and Xiaodong Liu. Towards human-level machine reading comprehension: Reasoning and inference with multiple strategies. CoRR, abs/1711.04964, 2017. URL http://arxiv.org/abs/1711.04964.
  • Yasunaga et al. (2022) Michihiro Yasunaga, Jure Leskovec, and Percy Liang. Linkbert: Pretraining language models with document links, 2022. URL https://arxiv.org/abs/2203.15827.
  • Zhang et al. (2022) Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, Todor Mihaylov, Myle Ott, Sam Shleifer, Kurt Shuster, Daniel Simig, Punit Singh Koura, Anjali Sridhar, Tianlu Wang, and Luke Zettlemoyer. Opt: Open pre-trained transformer language models, 2022. URL https://arxiv.org/abs/2205.01068.
  • Zhou et al. (2022) Gengmo Zhou, Zhifeng Gao Gao, Qiankun Ding, Hang Zheng, Wei Xu, Hongteng, Linfeng Zhang, and Guolin Ke. Uni-mol: A universal 3d molecular representation learning framework, 2022. URL https://chemrxiv.org/engage/chemrxiv/article-details/628e5b4d5d948517f5ce6d72.

附录A附录

A.1 数据集组件

我们在本节中介绍语料库的各个组成部分。

A.1.1论文

我们从预印本服务器(例如 arXiv、PMC 和其他来源)获取科学论文;参见表22

我们还使用语义学者全文数据集(S2)来捕获科学长尾(Lo等人,2019a) 我们应用了多种质量过滤器,包括排除具有某些关键字的期刊中的论文,以及排除期刊影响因子较低的论文。 我们使用的过滤器的详细信息包含在附录中。

我们获取全文不开放获取的摘要。 截至 2022 年 7 月,完整数据集总共包含 4800 万篇论文、摘要和全文。

Data source Documents Tokens
arXiv 2 million 35 billion
PMC 3 million 23 billion
Semantic Scholar 3 million 18 billion
PubMed Abstracts 21 million 5 billion
Semantic Scholar Abstracts 19 million 4 billion
bioRxiv 128,059 1 billion
OSF 54,905 428 million
medRxiv 24,019 176 million
ACL 25,518 150 million
PubAg Abstracts 308,235 105 million
ChemRxiv 7,617 67 million
Total 48 million 88 billion
表 22: 我们的语料库中使用的论文来源

我们使用 GROBID 库的修改版本将 PDF 转换为文本,并获取标题、作者和引文(GROBID,2008-2022) 在数学 LaTeX 可用的情况下,例如在 arXiv 中,我们确保将 GROBID 结果与 LaTeX 源结合起来以恢复数学内容。

最终的纸质文档以 Markdown 格式存储,而不是完整的 LaTeX。 我们使用 Markdown 作为语料库中所有文档的标准格式,以支持来源之间的知识混合。 论文按照第 2.2 节基于标题的方法进行引用处理。

A.1.2参考资料

我们收集百科全书、教科书和教育材料来创建模型可以学习的参考材料基础。 详细信息参见表23

Data source Documents Tokens
Wikipedia 6 million 5 billion
StackExchange 1.6 million 1 billion
LibreText 95,113 185 million
Wikibooks 74,705 110 million
Open Textbooks 647 94 million
MIT OCW 25,640 90 million
Wikiversity 38,138 52 million
ProofWiki 32,389 12 million
Khan Academy 3,075 7 million
Papers with Code 13,430 4 million
IUPAC Goldbook 6,788 1 million
Total 8 million 7 billion
表 23: 我们语料库中使用的参考材料

我们对几个数据集应用源特定处理,特别是:

  • 对于StackExchange,我们从科学网站上提出问题;请参阅附录了解所使用的子集。

  • 对于带有代码的论文IUPAC Goldbook,我们以提示随机化的形式应用数据增强。 有时我们将部分作为问题/答案;例如,解释机器学习方法的部分有时会被提出为“问题:什么是[方法]?”。

  • 对于KhanAcademy 文章,我们添加了<work>词符,用于逐步推理示例,我们将在第 2.4 节中简要说明。

我们努力保存数学 LaTeX 并捕获引用,包括论文的超链接。

A.1.3知识库

我们从科学知识库中获取细粒度的知识。 详细信息参见表24

Data source Documents Tokens
PubChem Compound 1.7 million 1 billion
UniProt 551,837 0.6 billion
RefSeq Genome 69 0.1 billion
OEIS 350,833 0.07 billion
Ribosome 9,950 0.05 billion
LIPID MAPS 45,273 0.03 billion
Reactome 156 0.01 billion
NASA Exoplanet 5,021 0.01 billion
Total 2 million 2 billion
表 24: 我们的语料库中使用的知识库

对于化学和生物学数据集,我们将 SMILES 和蛋白质序列等模态及其专用标记包装起来(参见第 2.1 节)。 对于 UniProt,我们将数据增强应用于文档格式:

  • 顺序随机化 - 蛋白质序列以0.5的概率从文档的开头开始,否则从文档的结尾开始。 这确保我们可以从 seqpropertypropertyseq 中学习。

  • 格式随机化 - 我们以13的概率替换描述,例如“蛋白质的功能是……”,带有问答,例如“问题:该蛋白质的功能是什么? 答案:功能是……”。

对于 NASA 系外行星,我们对系外行星特征应用顺序随机化。

对于化学和生物序列,我们采用可用实体的一小部分。 这是为了确保模型不会过度偏向于学习自然序列而不是自然语言。 具体来说:

  • 对于 PubChem 化合物,我们选取​​总化合物(110 百万)的一个小的随机子集(2 百万)。

  • 对于 UniProt,我们采用经过审查的 Swiss-Prot 蛋白质;总数(227 百万)的一小部分(0.5 百万)。

  • 对于RefSeq Genome,我们采用参考序列,它是可用核苷酸序列的一小部分。 对于人类基因组,我们只包含蛋白质编码基因。

这是我们可以在未来的工作中放松的限制,从而实现更大的语料库。 在这项工作中,我们重点关注调查单个模型是否可以在这种多模态环境中有效学习的第一步。

A.1.4普通爬取

我们通过 CommonCrawl 的高度过滤子集来获取学术和科学内容。 详细信息参见表25

Data source Documents Tokens
ScientificCC 0.8 million 0.7 billion
AcademicCC 0.05 million 0.4 billion
Total 0.9 million 1.1 billion
表 25: 我们的语料库中使用的 CommonCrawl 材料

对于Scientific Common Crawl,我们训练了一个快速文本分类器,使用 600 个域的噪声集来识别具有科学内容的 Common Crawl 网页(Joulin 等人,2016) 然后,我们手动将 fasttext 预测的领域注释为科学领域,以汇总 200 个高质量科学和参考领域的列表。

对于学术通用抓取,我们汇总了学术领域的列表,例如大学网站。 我们根据 Common Crawl 索引从这些域中获取 PDF,并使用 GROBID 对其进行处理。

我们不会对这些来源的页面进行 LaTeX 处理。

我们发现 CommonCrawl 中提取的文本质量通常很差,这就是我们应用严格过滤器的原因。 我们怀疑这可能是未来工作的一个重要领域,以便获取更多基础科学知识。

A.1.5代码

我们从机器学习、物理、数学、统计学和天文学的 Papers with Code 索引中获取学术 GitHub 存储库。 该索引并未明确涵盖生物学和化学等科学,但其中许多存储库都被捕获为通用机器学习索引的一部分。 我们排除没有许可证或版权文件的存储库。

A.1.6 <工作>数据集

For KhanProblems, we used the problems from AMPS and converted to a <work> format (Hendrycks et al., 2021). 在可能的情况下,我们尝试加入更繁琐的步骤来减少单次传递的错误,但这个标注相当不完整,我们怀疑通过更多的清洁可能会获得更大的收益。

For GSM8k we use the provided training dataset and convert so the calculator steps are performed by writing a Python program, following the <work> format (Cobbe et al., 2021). 总的来说,我们发现当模型进入这种提示风格时,更容易出错。 We think this is because the prompt style made the model write too many programs within <work>, rather than getting things ready to run in a single program. 一般来说,我们发现较长的<作业>答案会导致在推理过程中出现错误的几率较高。

对于OneSmallStep,我们制作了50个问题集问题模板,并将问题中的变量随机化以获得更多提示示例。 我们总结了下面提示的字段。

Field Templates
Astronomy 2
Chemistry 7
Electronics 10
Mathematics 15
Physics 14
Statistics 2
Total 50

正如我们所看到的,多样性并不是很大,因此更多的标注可能会带来进一步的收益。

Lastly we wrote 921 examples, based off internet examples, in a <work> format for Workout. 这是我们最高质量的数据集,并且在数学、化学、生物学、天文学、物理学、地质学、历史等领域具有合理的多样性。 这是我们希望在未来工作中扩展的数据集类型。

A.2 数据集去重

我们使用以下过程对语料库进行重复数据删除:

  • 除了一些明确排除的数据源之外,我们在整个语料库中识别出 100 字节或更多(utf-8 文本)的相同跨度。 我们使用 Lee 等人 (2022) 的存储库来完成此操作。

  • 我们按预定顺序处理语料库文件,以对某些来源进行优先级排序。 从代表跨文件的完全相同内容的一组跨度中,我们删除第一个文件中的跨度。 如果相同的内容在单个文件中重复出现,并且之前在文件中未找到,则保留所有出现的内容。

  • 我们合并最多 4 个字节分隔的重复跨度。

  • 我们将结果跨度缩小到段落边界(即“\n\n”)。

  • 我们从与跨度对应的文件中删除内容。

A.3 引文标识符删除

我们在下面报告了引文标识符消融的消融,其中我们测试了基于标题的标识符与字母数字标识符。

具体来说,我们从带有代码的论文中设置了数据集和方法名称的评估集。 任务是根据给定的方法或数据集名称来预测引用,例如ResNet [START_REF],其中目标是用于图像识别的深度残差学习,He 我们针对两种类型的消融处理训练了一个 67 亿的模型。 方法和数据集结果如下所示。

Citation Processing
(a) Titles (b) IDs
Method citations Correct Hallucinated Incorrect Correct Hallucinated Incorrect
k=1 13.8% 54.5% 31.7% 1.8% 3.5% 94.7%
2 k<5 30.4% 38.6% 31.1% 9.3% 4.0% 86.7%
5 k<10 36.3% 29.5% 34.2% 17.9% 0.0% 82.1%
10 k<25 43.0% 15.8% 41.2% 38.8% 3.0% 58.2%
25 k<50 53.4% 8.7% 37.9% 43.7% 0.0% 56.3%
50 k<100 64.8% 9.9% 25.3% 60.6% 1.4% 38.0%
100 k<500 64.6% 8.3% 27.1% 63.5% 1.0% 35.4%
500 78.6% 0.0% 21.4% 78.6% 0.0% 21.4%
表 26: 引文处理消融 我们使用 67 亿个大小的模型来预测 PWC 方法 数据集的引用情况。 论文根据数据集中的引用(提及)数量进行分类。 标题处理模型准确率较高,但产生幻觉的风险较大。 该评估数据集中有 1,705 种方法。
Citation Processing
(a) Titles (b) IDs
Dataset citations Correct Hallucinated Incorrect Correct Hallucinated Incorrect
k=1 1.4% 62.5% 36.1% 0.5% 11.5% 88.1%
2k<5 5.0% 59.2% 35.8% 0.6% 10.2% 89.2%
5k<10 15.4% 49.7% 34.8% 2.6% 6.2% 91.1%
10k<25 25.7% 36.8% 37.5% 8.3% 4.8% 86.9%
25k<50 44.6% 27.4% 28.0% 22.9% 7.0% 70.0%
50k<100 58.6% 17.7% 23.6% 41.4% 7.7% 50.9%
100k<500 65.5% 6.7% 27.8% 62.4% 3.1% 34.5%
500 81.8% 6.1% 12.1% 81.8% 3.0% 15.2%
表 27: 引文处理消融 我们使用 67 亿个容量模型来预测 PWC Datasets 数据集的引用情况。 该评估数据集中共有 4,735 个数据集。

A.4 120B 每个来源的验证损失

Refer to caption
图 23: 每个来源的验证损失 所有数据集类别的验证损失都落在训练中。 上面显示的是 120B 模型的结果。

A.5 思想链与<工作>

我们使用 Chung 等人 (2022) 在 MMLU 验证集 (Hendrycks 等人, 2020) 上 PaLM 540B 的最新结果进行比较。 虽然在两种方法中,使用推理和直接提示都会降低性能,但<work> 词符似乎更稳健。

Chain-of-Thought versus <work>
Subject Examples PaLM 540B CoT GAL 30B <work> GAL 120B <work>
Abstract Algebra 11 9.1% 27.3% 27.3%
Astronomy 16 7.1% 43.8% 25.0%
College Chemistry 8 12.5% 37.5% 37.5%
College Computer Science 11 9.1% 45.5% 54.6%
College Mathematics 11 0.0% 36.4% 18.2%
College Physics 11 36.4% 36.4% 45.5%
Econometrics 11 33.3% 33.3% 33.3%
Electrical Engineering 16 18.8% 37.5% 56.3%
Elementary Mathematics 41 24.4% 53.7% 58.5%
Formal Logic 9 0.0% 21.4% 21.4%
High School Chemistry 22 22.7% 27.3% 36.4%
High School Computer Science 9 33.3% 44.4% 44.4%
High School Mathematics 29 24.1% 31.0% 51.7%
High School Physics 17 11.8% 23.5% 29.4%
High School Statistics 23 26.1% 39.1% 56.5%
Machine Learning 11 18.2% 9.1% 27.3%
Overall 261 19.1% 35.9% 42.4%
表 28: <工作>与思想链 PaLM 使用 CoT 5-shot 进行评估。 Galactica with the <work> 词符包含在训练前。 此处的结果来自 MMLU dev,以便与 PaLM 进行比较。
BIG-bench
Benchmark OPT 30B OPT 175B BLOOM 176B GAL 30B GAL 120B
Anachronisms 47.4% 49.1% 1.3% 47.0% 48.7%
Analogical Similarity 12.7% 19.8% 19.2% 17.0% 23.5%
Analytic Entailment 40.0% 52.9% 48.6% 47.1% 51.3%
Causal Judgment 53.7% 55.3% 54.7% 49.5% 51.1%
Crash Blossom 42.1% 36.8% 47.4% 42.1% 42.1%
Crass AI 20.5% 34.1% 31.8% 40.9% 52.3%
Dark Humor Detection 46.3% 48.8% 51.3% 48.8% 46.3%
Date Understanding 15.5% 21.1% 12.2% 11.4% 16.8%
Disambiguation QA 39.5% 44.6% 44.2% 46.9% 43.0%
Empirical Judgments 38.4% 52.5% 56.6% 50.5% 54.6%
English Proverbs 26.5% 20.6% 26.5% 26.5% 17.7%
Entailed Polarity 87.8% 88.5% 89.2% 89.2% 85.8%
Epistemic Reasoning 43.4% 43.5% 61.2% 40.1% 53.0%
Evaluating Information Essentiality 32.4% 19.1% 29.4% 25.0% 22.1%
Fantasy Reasoning 67.7% 69.2% 65.2% 66.7% 52.7%
Figure of Speech Detection 10.2% 13.6% 22.0% 13.6% 15.3%
General Knowledge 51.4% 78.6% 80.0% 68.6% 74.3%
GRE Reading Comprehension 6.5% 12.9% 22.6% 16.1% 35.5%
Hindu Knowledge 32.6% 42.3% 48.6% 36.6% 49.7%
Human Organs Senses 45.2% 57.1% 59.5% 71.4% 73.8%
Identify Odd Metaphor 27.7% 21.3% 19.2% 19.2% 27.7%
Implicatures 44.3% 49.6% 53.7% 59.4% 69.9%
Implicit Relations 22.4% 35.3% 28.2% 16.5% 25.9%
Intent Recognition 66.2% 79.2% 89.5% 87.8% 89.5%
Irony Identification 50.5% 49.5% 63.6% 60.6% 59.6%
Known Unknowns 50.0% 52.2% 50.0% 50.0% 41.3%
Logic Grid Puzzle 32.7% 31.6% 31.1% 35.8% 39.4%
Logical Args 18.8% 34.4% 25.0% 34.4% 43.8%
Logical Fallacy Detection 50.9% 54.9% 54.5% 54.1% 55.1%
Logical Sequence 38.5% 46.2% 30.8% 25.6% 43.6%
Mathematical Induction 60.9% 55.1% 52.2% 44.9% 58.0%
Metaphor Boolean 51.1% 57.5% 61.5% 63.4% 49.1%
Misconceptions 56.1% 57.5% 54.8% 51.6% 58.0%
Moral Permissibility 50.6% 54.4% 57.0% 52.3% 49.7%
Movie Recommendation 6.4% 52.6% 49.4% 31.6% 36.8%
Navigate 49.3% 49.8% 51.1% 50.9% 51.8%
Nonsense Words Grammar 28.0% 46.0% 48.0% 38.0% 48.0%
Novel Concepts 9.4% 12.5% 15.6% 6.3% 9.4%
Odd One Out 30.2% 26.7% 22.1% 12.8% 19.8%
Penguins in a Table 29.5% 32.9% 28.2% 40.9% 36.9%
Phrase Relatedness 45.0% 51.0% 55.0% 53.0% 64.0%
Physical Intuition 39.5% 42.0% 37.0% 55.6% 58.0%
Physics 39.3% 42.8% 54.2% 55.9% 65.5%
Presuppositions as NLI 36.6% 36.2% 39.6% 34.0% 28.0%
Question Selection 39.8% 42.1% 5.2% 41.1% 42.7%
Reasoning about Colored Objects 33.9% 38.7% 40.5% 45.8% 55.0%
Riddle Sense 40.8% 57.1% 44.9% 46.9% 42.9%
Ruin Names 19.4% 20.8% 12.5% 24.1% 33.0%
Sentence Ambiguity 63.3% 60.0% 65.0% 60.0% 66.7%
Similarities Abstraction 21.1% 22.4% 27.6% 21.1% 13.2%
Snarks 42.0% 41.4% 47.0% 48.1% 48.6%
Sports Understanding 50.0% 48.8% 54.5% 52.0% 51.8%
StrategyQA 56.1% 58.5% 57.1% 53.9% 53.7%
Temporal Sequences 31.4% 28.4% 20.5% 26.4% 21.2%
Timedial 15.3% 22.2% 24.4% 39.9% 40.8%
Understanding Fables 20.1% 19.6% 24.9% 28.0% 20.1%
Winowhy 37.2% 39.7% 38.0% 56.5% 56.4%
Average (weighted) 39.6% 43.4% 42.6% 46.6% 48.7%
Average (unweighted) 32.8% 42.7% 42.2% 42.7% 45.3%
表 29: 大基准结果 即使在较小的规模下,卡拉狄加的性能也超过了一般模型。

A.6提示预训练数据集

我们在下面报告预训练中包含的提示数据集。

Data source Split Prompts Tokens
MedMCQA (Pal et al., 2022) train 180,894 13,311,290
RACE (Xu et al., 2017) train 29,502 12,160,390
Quoref (Dasigi et al., 2019) train 19,206 10,361,335
ROPES (Lin et al., 2019) train 10,815 2,672,195
BioASQ7 task b (Nentidis et al., 2021) train 2,676 1,288,462
TQA (Kembhavi et al., 2017) train 8,566 1,856,473
BoolQ (Clark et al., 2019) train 9,333 1,224,335
SciQ (Welbl et al., 2017) train 10,346 1,397,668
QASC (Khot et al., 2020) train 8,053 930,414
CommonSenseQA (Talmor et al., 2018) train 9,644 660,750
OpenBookQA (Mihaylov et al., 2018) train 4,908 324,995
QCScience (V et al., 2021) train 2,417 209,803
PubMedQA (Jin et al., 2019) train 495 186,304
QASPER (Dasigi et al., 2021) train 606 105,985
UChallenge (new) train 346 29,308
TrueOrFalse (new) train 107 2,854
表 30: Naturebook 中使用的问答提示
Data source Split Prompts Tokens
JNLPBA (Kim et al., 2004) train 91,213 5,262,723
BC4CHEMD (Krallinger et al., 2004) train 30,234 1,756,929
ChemProt (Taboureau et al., 2011) train 3,030 1,286,816
BC2GM (Smith et al., 2008) train 12,375 704,357
S800 (Pafilis et al., 2013) train 5,318 281,448
BC5CDR Chem (Li et al., 2016) train 4,503 241,729
BC5CDR Disease (Li et al., 2016) train 4,498 231,322
MethodNet (new) train 659 167,904
Scientific Entities (new) train 305 97,935
表31: Naturebook 中使用的实体提取提示
Data source Split Prompts Tokens
PWC Desc (new) train 3,586 9,663,419
SciTail (Khot et al., 2018) train 23,361 1,383,614
Fragmented Glass (new) train 718 867,985
SciTLDR (Cachola et al., 2020) train 1,973 472,169
表32: Naturebook 中使用的摘要提示
Data source Split Prompts Tokens
Wizard of Wikipedia (Dinan et al., 2018) train 18,246 4,466,113
Advising (Gunasekara et al., 2019) train 495 147,793
表33: Naturebook 中使用的对话框提示
Data source Split Prompts Tokens
BACE Classification train 1,198 122,699
BACE Regression train 1,198 154,656
BBBP train 1,613 115,916
ClinTox train 1,171 100,955
Delaney train 893 62,083
FreeSolv train 508 29,542
HIV train 32,572 2,308,966
HOPV train 2,217 333,620
Lipo train 3,327 362,342
PCBA train 714,277 553,645,656
QM7 train 5,416 320,199
QM8 train 275,569 27,163,516
QM9 train 1,259,090 128,427,073
SAMPL train 508 1,259,090
SIDER train 30,499 2,741,904
Thermosol train 1,396 139,481
Tox21 train 73,883 54,224,093
表34: Naturebook 中使用的化学性质预测提示

A.6.1 化学性质预测

我们使用 17,052 种化合物的验证集设置了化学和物理性质的预测任务。 我们使用 PubChem 文档结构来设计提示。 我们在图 24 中展示了 XLogP 的示例。

Canonical SMILES [START_SMILES]CC(=O)OC1=CC=CC=C1C(=O)O[END_SMILES]
Computed Properties | Property Name | Property Value | XLogP3-AA Log P |
图 24: 化学性质提示 我们根据 PubChem 文档格式设计了一个提示。 使用这种提示风格,我们测试了模型从 SMILES 序列中学习化学和物理特性的能力。

我们在表 35 中报告结果。 随着规模的扩大,误差相当平稳地减小,这表明自监督学习正在文档内发生,从 SMILES 到化学和物理特性。 但 120B 的值逐渐减少,这表明可能需要更多的分子数据。

Chemical and Physical Property Prediction
Model Param (bn) Mol. Weight XLogP Rotatable Bond # Topological PSA
GAL 125M 0.1 101.43 1.638 4.389 36.63
GAL 1.3B 1.3 101.05 1.413 3.930 41.11
GAL 6.7B 6.7 81.76 1.197 2.932 30.01
GAL 30B 30 77.46 1.101 3.534 29.54
GAL 120B 120 86.57 1.131 3.474 28.84
表 35: 化学和物理性质预测 所有结果均以 RMSE 形式报告。 预测误差通常随着规模的增加而减小,这表明卡拉狄加可以从微笑中推断出属性。

A.6.2 对接回归

我们简要介绍了对接分数回归任务(García-Ortegón 等人,2022) 这里的任务是根据靶标和配体预测对接分数。 就卡拉狄加而言,我们使用文本格式来表示此信息。 25显示了一个示例。 我们在表 36 中报告结果。

[START_AMINO]MLEICLKLVGCKSKKGLSSSSSCYLEEALQRPVASDFEPQGLSEAARWNSKE...[END_AMINO]
[START_I_SMILES]O1[C@@H]([C@@H](O)[C@@H](O)[C@@H]1N2C(=O)NC(=O)C=C2)...[END_I_SMILES]
Question: What will be the docking score of this compound against the protein? Answer: -8.8
图 25: DockSTRING 格式 为了构建训练集,我们采用蛋白质靶标和配体序列,提出自然语言问题,并将对接分数作为答案。
Docking Regression
Model Param (bn) ESR2 F2 KIT PARP1 PGR
GAL 125M 0.1 -12.4 -6.09 -6.73 -1.69 -12.4
GAL 1.3B 1.3 -0.293 0.591 0.063 0.728 -1.72
GAL 6.7B 6.7 -0.216 0.694 0.290 0.681 -0.894
GAL 30B 30 -0.186 0.679 0.313 0.732 -0.468
GAL 120B 120 -0.564 0.626 0.249 0.732 -0.960
表36: DockSTRING 结果 显示的指标为R2

对于其中三个目标,卡拉狄加能够仅通过查看序列来进行推断,并且性能从 1.3B 参数开始扩展。 然而,卡拉狄加并没有解决ESR2和PGR这两个更难的目标。 这暗示了文本表示的局限性,并且可能表明需要更多的几何信息才能以合理的数据效率解决任务。

A.6.3MMLU 的其余部分

我们报告以下其他领域的社会科学和结果:

Subject OPT BLOOM Gopher Chinchilla GAL 30B GAL 120B
Anatomy 28.9% 37.0% 56.3% 70.4% 54.1% 58.5%
Business Ethics 31.0% 36.0% 70.0% 72.0% 42.0% 48.0%
Clinical Knowledge 21.9% 29.8% 67.2% 75.1% 57.7% 59.2%
Computer Security 32.0% 34.0% 65.0% 76.0% 65.0% 67.0%
Conceptual Physics 34.9% 36.6% 49.4% 67.2% 43.4% 50.6%
Global Facts 23.0% 32.0% 38.0% 39.0% 32.0% 35.0%
High School European History 6.7% 4.8% 72.1% 78.8% 60.6% 67.3%
High School Geography 26.3% 38.9% 76.8% 86.4% 58.1% 63.6%
High School Gov. & Politics 32.6% 30.6% 83.9% 91.2% 58.5% 61.7%
High School Macroeconomics 36.2% 23.1% 65.1% 70.5% 40.5% 46.4%
High School Microeconomics 32.8% 27.3% 66.4% 77.7% 49.2% 55.9%
High School Psychology 25.5% 36.9% 81.8% 86.6% 68.8% 74.3%
High School US History 9.3% 11.8% 78.9% 83.3% 51.5% 58.3%
High School World History 30.0% 29.1% 75.1% 85.2% 63.7% 71.7%
Human Aging 35.0% 34.5% 66.4% 77.6% 55.2% 59.2%
Human Sexuality 26.0% 33.6% 67.2% 86.3% 56.5% 58.8%
International Law 33.1% 41.3% 77.7% 90.9% 64.4% 71.1%
Jurisprudence 0.0% 0.0% 71.3% 79.6% 47.2% 53.7%
Logical Fallacies 28.2% 28.2% 72.4% 80.4% 47.2% 59.5%
Management 25.2% 27.2% 77.7% 82.5% 60.2% 63.1%
Marketing 32.5% 41.0% 83.3% 89.7% 70.5% 76.5%
Miscellaneous 31.5% 37.7% 75.7% 84.5% 54.0% 63.9%
Moral Disputes 28.2% 32.7% 66.8% 77.5% 50.3% 56.6%
Moral Scenarios 25.4% 24.4% 40.2% 36.5% 24.1% 24.2%
Nutrition 30.4% 32.4% 69.9% 77.1% 63.1% 67.3%
Philosophy 29.9% 31.5% 68.8% 79.4% 52.4% 54.7%
Prehistory 36.7% 36.1% 67.6% 81.2% 52.2% 59.6%
Professional Accounting 29.8% 28.7% 44.3% 52.1% 31.2% 40.0%
Professional Law 30.3% 25.5% 44.5% 56.5% 34.6% 36.0%
Professional Medicine 27.9% 25.4% 64.0% 75.4% 52.2% 59.6%
Professional Psychology 32.7% 33.3% 68.1% 75.7% 50.5% 56.5%
Public Relations 34.5% 30.0% 71.8% 73.6% 44.5% 53.6%
Security Studies 35.1% 29.8% 64.9% 75.9% 46.5% 57.1%
Sociology 26.4% 29.9% 84.1% 91.0% 65.7% 72.6%
US Foreign Policy 44.0% 37.0% 81.0% 92.0% 64.0% 75.0%
Virology 30.7% 28.3% 47.0% 53.6% 44.6% 48.2%
World Religion 43.9% 41.5% 84.2% 87.7% 44.4% 64.9%
表37: MMLU 的其余部分 语料库 Delta 效应在非 STEM 科目中尤其明显,其中卡拉狄加落后于 Chinchilla 和 Gopher 的表现。

A.7 进一步的训练数据集详细信息

A.7.1 玻璃碎片

我们编制一份科学实体列表,检索每个科学实体的片段,并根据检索到的片段编写该实体的描述。 这可以被认为是一个总结任务。 我们还编写了没有任何检索片段的真实描述。

A.7.2方法网

我们编译机器学习摘要并预测论文中介绍的新方法。

A.7.3PWC 描述

对于机器学习中的数据集和方法的列表,我们从介绍论文中检索每个数据集和方法的片段,并根据检索到的片段编写摘要描述。

A.7.4核糖体

我们使用 Expasy666https://web.expasy.org/translate/ 创建人类基因组蛋白质编码部分的核苷酸序列和蛋白质序列之间的配对翻译集。

A.7.5S2

由于质量问题,某些领域的论文被忽略:心理学、商业、艺术、经济学、地理、历史、政治学、哲学和社会学。 含有“法律”、“历史”、“政治”、“商业”、“宗教”等字样的期刊论文也被忽略。 对于 S2,我们还排除了来自低影响力期刊的论文。 S2 数据集中每个期刊的大致影响因子是通过计算该期刊中的论文数量以及这些论文收到的引用次数来计算的。 如果影响因子近似<1,则该期刊的论文将被忽略。 非英语论文将被忽略。 其中一些限制可能会在未来的工作中得到放松。

A.7.6 科学实体

对于学术论文摘要的随机样本,我们预测摘要中提到的科学实体。

A.7.7StackExchange

我们包括以下来源的问题和答案:学术、人工智能、arduino、天文学、航空、生物信息学、生物学、化学、国际象棋、cogsci、计算机图形学、cs、cseducators、cstheory、数据科学、dsp、地球科学、经济学、电子、工程、 hardwarerecs、health、hsm、数学、matheducators、mathematica、mathoverflow、/mechanics、网络工程或、物理、令人费解、定量、量子计算、逆向计算、逆向工程、机器人、scicomp、软件工程、softwarerecs、声音、空间、统计。

A.7.8 正确或错误

我们包含 107 个判断题,以提高此类问题的零样本性能。

A.7.9 UC挑战

我们包含 346 个大学级别的科学问题的自由形式问答;这是闭卷问答的一种形式(而不是多项选择)。

A.8评估数据集示例

A.8.1 氨基探针

Prompt Question: Does peptide bond cleavage occur on the carbonyl side or the amino side for trypsin? Answer: carbonyl

A.8.2 星系团

Prompt Abell 370 is a galaxy cluster located in the constellation of Correct Completion: Cetus

A.8.3 矿物组

Prompt Fayalite is a silicate mineral from the major group Correct Completion: Nesosilicates

A.8.4重复数据删除结果

阅读文献时我们担心的问题之一是,考虑到所使用的大量语料库,MMLU 结果缺乏数据泄漏分析。 Brown 等人 (2020) 之前的工作之后,我们搜索训练集和测试集之间的 n 元匹配。 我们选择从测试集中删除训练集中出现的任何 13 克匹配,并报告删除这些冲突示例之前和之后的分数。 结果显示在背面。

score_before score_after count_before count_after
abstract_algebra 33.0% 32.32% 100 99
anatomy 58.52% 58.95% 135 134
astronomy 65.13% 64.67% 152 150
business_ethics 48.0% 48.0% 100 100
clinical_knowledge 59.24% 59.24% 265 265
college_biology 68.75% 69.23% 144 143
college_chemistry 46.0% 46.46% 100 99
college_computer_science 49.0% 48.98% 100 98
college_mathematics 43.0% 45.26% 100 95
college_medicine 57.23% 57.74% 173 168
college_physics 42.16% 42.27% 102 97
computer_security 67.0% 67.35% 100 98
conceptual_physics 50.64% 50.85% 235 234
econometrics 42.11% 42.11% 114 114
electrical_engineering 62.76% 62.76% 145 145
elementary_mathematics 38.10% 38.10% 378 378
formal_logic 32.54% 32.54% 126 126
global_facts 35.0% 35.05% 100 97
high_school_biology 69.35% 69.61% 310 306
high_school_chemistry 47.78% 47.78% 203 203
high_school_computer_science 70.0% 70.0% 100 100
high_school_european_history 67.27% 66.17% 165 133
high_school_geography 63.63% 63.63% 198 198
high_school_government_and_politics 61.66% 61.46% 193 192
high_school_macroeconomics 46.41% 46.53% 390 389
high_school_mathematics 32.59% 32.58% 270 267
high_school_microeconomics 55.88% 55.88% 238 238
high_school_physics 33.77% 33.77% 151 151
high_school_psychology 74.31% 74.26% 545 544
high_school_statistics 41.20% 41.20% 216 216
high_school_us_history 58.33% 58.59% 204 99
high_school_world_history 71.73% 72.04% 237 186
human_aging 59.19% 59.19% 223 223
human_sexuality 58.78% 58.78% 131 131
international_law 71.07% 71.07% 121 121
jurisprudence 53.70% 53.70% 108 108
logical_fallacies 59.51% 59.26% 163 162
machine_learning 38.39% 36.54% 112 104
management 63.11% 63.11% 103 103
marketing 76.50% 76.50% 234 234
medical_genetics 68.0% 67.68% 100 99
miscellaneous 63.86% 63.81% 783 782
moral_disputes 56.65% 56.52% 346 345
moral_scenarios 24.24% 24.24% 895 895
nutrition 67.32% 67.32% 306 306
philosophy 54.66% 54.52% 311 310
prehistory 59.57% 59.57% 324 324
professional_accounting 40.07% 39.86% 282 281
professional_law 36.05% 36.05% 1534 1534
professional_medicine 59.56% 59.63% 272 270
professional_psychology 56.54% 56.54% 612 612
public_relations 53.63% 53.63% 110 110
security_studies 57.14% 57.14% 245 245
sociology 72.64% 73.0% 201 200
us_foreign_policy 75.0% 75.76% 100 99
virology 48.19% 48.48% 166 165
world_religions 64.91% 64.91% 171 171

A.8.5 卡拉狄加撰写的维基百科文章示例

Multi-Head Attention Multi-Head Attention is an attention mechanism used in the Transformer architecture for neural networks (Vaswani et al., 2017). Background In natural language processing, an attention mechanism is a model that maps a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key (Vaswani et al., 2017). The scaled dot-product attention is an attention mechanism used in the Transformer architecture. It is defined as mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors. The output is computed as a weighted sum of the values, where the weight assigned to each value is computed by a compatibility function of the query with the corresponding key (Vaswani et al., 2017). The multi-head attention is an extension of the scaled dot-product attention. The multi-head attention mechanism is defined as several scaled dot-product attention stacked together, where the input is linearly projected h times with different, learned linear projections to dk, dk, and dv dimensions, respectively (Vaswani et al., 2017). Formal definition Let the query matrix be Q, the key matrix be K, and the value matrix be V. The matrices are of shape dk×dq, dk×dk, and dv×dk respectively. The multi-head attention mechanism is defined as: MultiHead(Q,K,V)=Concat(head1,,headh)WO where: headi=Attention(QWiQ,KWiK,VWiV) where WiQ, WiK, and WiV are the learned linear projections to the dk, dk, and dv dimensions, respectively. WO is the linear projection from dvh to dv dimensions (Vaswani et al., 2017). Applications Multi-head attention is widely used in natural language processing and other domains. For example, in the BERT model, multi-head attention is used to learn the context-aware representation of the input sequence (Devlin et al., 2019). References 1. Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. “Attention Is All You Need.” ArXiv abs/1706.03762 (2017). 2. Devlin, Jacob, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. “BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding.” ArXiv abs/1810.04805 (2019).

A.8.6 卡拉狄加撰写的文献调查示例

Self-Supervised Learning, A Survey Abstract: In this paper we review self-supervised learning, a method of learning features from unlabelled data. We discuss the historical motivation behind self-supervised learning and review some of the current state of the art methods. We also look at how self-supervised learning has been used to solve a wide range of problems, including image classification, object detection, video analysis and robotics. Finally we discuss some of the challenges and future research directions for self-supervised learning. 1 Introduction Deep learning has been very successful at solving many problems in machine learning, however these methods are reliant on large amounts of labelled data. In many real world applications, it is very expensive or impossible to obtain large amounts of labelled data. Self-supervised learning has emerged as a way of overcoming this issue. Self-supervised learning is the process of learning a task that can be automatically generated from unlabelled data. In this way, the data is automatically labelled by exploiting some form of structure in the data. Once the self-supervised task has been solved, the features learned by the network are used to solve the original task. In this paper we will discuss the historical motivation behind self-supervised learning and review some of the current state of the art methods. We will look at how self-supervised learning has been used to solve a wide range of problems, including image classification, object detection, video analysis and robotics. Finally we will discuss some of the challenges and future research directions for self-supervised learning. 2 Historical Motivation The first wave of deep learning was dominated by supervised learning methods. These methods require large amounts of labelled data, which is very expensive to obtain in many domains. To overcome this issue, unsupervised learning methods were introduced. These methods don’t require labelled data, and so can be applied to a wide range of domains. The downside of these methods is that the learned features are not as good as those learned by supervised learning methods. To bridge the gap between supervised and unsupervised learning, self-supervised learning was introduced. The idea is to learn a supervised task from unlabelled data. Once this task has been learned, the features learned can be transferred to other tasks. The hope is features learned by self-supervised learning will be better than those learned by unsupervised learning, and that self-supervised learning can be applied to a wide range of domains. The first method of self-supervised learning was autoencoders (Hinton et al., 1993). Autoencoders are a type of neural network that learn to reconstruct the input. This can be thought of as learning a self-supervised task of predicting the input from the input. The features learned by autoencoders have been shown to be useful for solving other tasks (Hinton et al., 2006). Another method of self-supervised learning is multi-task learning (Caruana, 2017). In multi-task learning, multiple tasks are learned simultaneously. The idea is that by learning multiple tasks, the network will learn better features. In this way, multi-task learning can be thought of as a form of self-supervised learning. 3 Learning Methods (cont) 3.1 Pretext Tasks The first method of self-supervised learning that we will discuss is the use of pretext tasks. In this method, a supervised task is learned from unlabelled data. This task is called a pretext task, and the labels for this task are automatically generated from the data. Once the pretext task has been learned, the features learned by the network are used to solve the original task. (cont)

A.8.7 卡拉狄加撰写的示例讲义

Lecture 1: Hartree-Fock Theory Introduction In this lecture, we will consider the simplest quantum mechanical method for approximating the ground state energy of a many-electron system. The Hartree-Fock method is also known as the self-consistent field method, and is an approximation to the exact many-electron wavefunction known as the Slater determinant. The Slater determinant is an anti-symmetric product of one-electron functions (orbitals), and is the simplest wavefunction that satisfies the Pauli exclusion principle. The Hartree-Fock method is an iterative method for finding the best possible set of orbitals that minimizes the energy of the Slater determinant. In the Hartree-Fock method, the electron-electron repulsion energy is approximated as a classical Coulomb interaction between two charge distributions, one for each electron. This approximation neglects the correlation between the electrons, which is an important part of the total electron-electron repulsion energy. The resulting method is a mean-field theory in which each electron moves in an average field due to the other electrons. The resulting equations are known as the Hartree-Fock equations, and can be solved self-consistently to obtain the best possible orbitals. The resulting ground state energy is known as the Hartree-Fock energy, and the Hartree-Fock wavefunction is a single Slater determinant built from these orbitals. The Hartree-Fock method is also known as the Self-Consistent Field (SCF) method, because the equations for the orbitals are solved self-consistently. The Hartree-Fock equations can be derived variationally by minimizing the energy of the Slater determinant with respect to the orbitals. The resulting orbitals are known as the canonical Hartree-Fock orbitals, and are not necessarily localized in space. The Hartree-Fock energy is invariant to unitary transformations of the canonical orbitals, and therefore there are an infinite number of orbitals that yield the same Hartree-Fock energy. These orbitals are known as non-canonical orbitals, and can be localized in space by appropriate unitary transformations. Single-Electron Approximation In this section, we will review the basics of quantum mechanics for a single particle. This is useful for understanding the single-electron approximation used in Hartree-Fock theory. The time-independent Schrödinger equation for a particle in a potential V(r) is given by: H¯ψ(r)=Eψ(r) where the Hamiltonian is H¯=2m2+V(r) The time-independent Schrödinger equation is an eigenvalue equation for the Hamiltonian operator, where the eigenvalues are the allowed energies of the system. The Hamiltonian is a sum of two operators, one corresponding to the kinetic energy of the particle, and the other corresponding to the potential energy. The potential energy operator acts on the wavefunction by multiplying by the potential V(r). The kinetic energy operator is the Laplacian operator 2, which is the divergence of the gradient of the wavefunction. The Laplacian operator is a second derivative with respect to the position of the particle. (cont)

A.8.8 对不起,弗兰克,我想你错过了

如果人工智能要帮助我们探索宇宙,我们需要它具备基本的国际象棋能力来缓解无聊——考虑到超光速旅行是不可能的。

Srivastava 等人 (2022) 的 BIG-bench 任务套件有一个将死检测的基准。 为了好玩,我们制作了 20,000 个公共国际象棋游戏的数据集,并使用 python-chess 库将它们转换为 ASCII 国际象棋777https://python-chess.readthedocs.io/en/latest/ 我们在预训练语料库中包含了 19,426 个游戏(其余用于验证)。 我们还记录了玩家的 ELO 评分。 示例文档如下所示:

# A Chess Game ## Player Information White ELO: 2286 Black ELO: 2586 ## The Game Begins r n b q k b n r p p p p p p p p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . P P P P P P P P R N B Q K B N R White (ELO: 2286) plays e4 r n b q k b n r p p p p p p p p . . . . . . . . . . . . . . . . . . . . P . . . . . . . . . . . P P P P . P P P R N B Q K B N R (cont)

为了进行评估,我们将一合一棋盘转换为 ASCII 并提示走棋。 结果如下所示。

Model Accuracy
GAL 125M 0.54%
GAL 1.3B 0.43%
GAL 6.7B 1.77%
GAL 30B 1.29%
GAL 120B 3.03%
表 38: 一刀切结果 显示的指标是准确性。

虽然这代表了其他大型语言模型的最先进水平888https://github.com/google/BIG-bench/tree/main/bigbench/benchmark_tasks/checkmate_in_one,显然这个问题还需要做更多的工作。