增强语言模型：调查

Grégoire Mialon¹¹footnotemark: 1 gmialon@meta.com Roberto Dessì¹¹footnotemark: 1 ²²footnotemark: 2 rdessi@meta.com Maria Lomeli¹¹footnotemark: 1 marialomeli@meta.com Christoforos Nalmpantis¹¹footnotemark: 1 christoforos@meta.com Ram Pasunuru¹¹footnotemark: 1 rpasunuru@meta.com Roberta Raileanu¹¹footnotemark: 1 raileanu@meta.com Baptiste Rozière¹¹footnotemark: 1 broz@meta.com Timo Schick¹¹footnotemark: 1 schick@meta.com Jane Dwivedi-Yu¹¹footnotemark: 1 janeyu@meta.com Asli Celikyilmaz¹¹footnotemark: 1 aslic@meta.com Edouard Grave¹¹footnotemark: 1 egrave@meta.com Yann LeCun¹¹footnotemark: 1 yann@meta.com Thomas Scialom¹¹footnotemark: 1 tscialom@meta.com
¹¹footnotemark: 1 Meta AI ²²footnotemark: 2 Universitat Pompeu Fabra

摘要

这项调查回顾了通过推理技能和使用工具的能力增强语言模型 (LM) 的工作。前者被定义为将潜在复杂的任务分解为更简单的子任务，而后者则包括调用外部模块（例如代码解释器）。语言模型可以单独利用这些增强功能，也可以通过启发式方法组合利用这些增强功能，或者通过演示来学习如何做到这一点。在遵守标准缺失标记预测目标的同时，此类增强型 LM 可以使用各种可能是非参数的外部模块来扩展其上下文处理能力，从而偏离纯语言建模范式。因此，我们将它们称为增强语言模型（ALM）。缺失的词符目标使 ALM 能够学习推理、使用工具甚至行动，同时仍然执行标准自然语言任务，甚至在多个基准测试中表现优于大多数常规 LM。在这项工作中，在回顾了 ALM 的当前进展后，我们得出结论，这个新的研究方向有可能解决传统 LM 的常见局限性，例如可解释性、一致性和可扩展性问题。

1 简介：调查动机和定义

1.1动机

大语言模型（Large Language Models）（Devlin 等人，2019；Brown 等人，2020；Chowdhery 等人，2022）推动了自然语言处理（NLP）领域的巨大进步，并且已经成为以下领域的核心：数百万用户的产品，如编码助手Copilot（陈等人，2021）、Google搜索引擎¹¹1See e.g. https://blog.google/products/search/search-language-understanding-bert/ 或最近的 ChatGPT^{21>²2https://openai.com/blog/chatgpt/} 记忆(Tirumala 等人, 2022)结合组合性(Zhou 等人, 2022)能力使大语言模型能够执行各种任务，例如语言理解或条件和无条件以前所未有的性能水平生成文本，从而为更高带宽的人机交互开辟了一条现实的道路。

然而，大语言模型存在严重的局限性，阻碍了更广泛的部署。大语言模型经常提供非事实但看似合理的预测，通常称为幻觉（Welleck等人，2020）。这会导致许多可以避免的错误，例如在算术上下文中（Qian等人，2022）或在推理链中（Wei等人，2022c）。此外，许多大语言模型突破性的能力似乎随着规模的大小而出现，通过可训练参数的数量来衡量：例如，Wei 等人（2022b）表明大语言模型能够执行一些大语言模型基准任务³³3https://github.com/google/BIG-bench通过少样本提示，一旦达到一定规模。尽管最近的一系列工作产生了较小的语言模型，保留了最大语言模型的一些功能（Hoffmann等人，2022），但大语言模型的大小和对数据的需求对于训练和维护来说都是不切实际的：大型模型的持续学习仍然是一个开放的研究问题（Scialom 等人，2022）。 Goldberg (2023) 在 ChatGPT 的背景下讨论了大语言模型的其他局限性，这是一个基于 GPT3 构建的聊天机器人。

我们认为这些问题源于大语言模型的一个基本缺陷：它们通常被训练来执行统计语言建模，给定（i）单个参数模型和（ii）有限的上下文，通常是 $n$ 先前或周围的 Token 。尽管近年来由于软件和硬件创新， $n$ 一直在增长，但与始终正确执行语言建模所需的潜在较大上下文相比，大多数模型仍然使用相对较小的上下文大小。因此，需要大规模来存储上下文中不存在但执行手头任务所必需的知识。

因此，出现了一种不断增长的研究趋势，其目标是解决这些问题，稍微偏离上述纯统计语言建模范式。例如，一系列工作通过增加相关性来规避大语言模型的有限上下文大小：这是通过添加从相关外部文档中提取的信息来完成的。通过为 LM 配备一个从给定上下文的数据库中检索此类文档的模块，可以在参数较少的情况下匹配一些最大的 LM 的某些功能（Borgeaud 等人，2022；Izacard 等人，2022）。请注意，生成的模型现在是非参数的，因为它可以查询外部数据源。更一般地说，LM 还可以通过推理策略改善其上下文(Wei 等人 (2022c); Taylor 等人 (2022); Yang 等人 (2022c) 除其他外)以便在生成答案之前产生更相关的上下文以换取更多计算。另一种策略是允许语言模型利用外部工具(Press 等人 (2022)；Gao 等人 (2022)；Liu 等人 (2022b) 除其他外)来增强当前上下文中缺少 LM 权重中未包含的重要信息。尽管这些工作中的大多数旨在减轻上面分别提到的 LM 的缺点，但很容易认为，通过推理和工具更系统地增强 LM 可能会产生更强大的智能体。我们将这些模型称为增强语言模型 (ALM)。随着这一趋势的加速，跟踪和理解众多结果的范围变得非常困难。这就需要对 ALM 作品进行分类，并对有时出于不同意图使用的技术术语进行定义。

定义。

我们现在提供将在整个调查中使用的术语的定义。

•

推理。在 ALM 的背景下，推理是将潜在复杂的任务分解为更简单的子任务，LM 可以更轻松地自行解决或使用工具来解决。有多种方法可以分解为子任务，例如递归或迭代。从这个意义上说，推理类似于 LeCun (2022) 中定义的规划。在本次调查中，推理通常指的是提高 LM 推理技能的各种策略，例如使用少样本示例进行逐步推理。目前尚不完全清楚 LM 是否真的在推理，或者只是生成一个更大的上下文来增加正确预测丢失标记的可能性。我们参考 Huang 和 Chang (2022) 来讨论这个主题：虽然考虑到当前的技术水平，推理目前可能是对语言的滥用，但该术语已经在社区中使用。 ALM 上下文中推理的更实用的定义是在给出提示答案之前为模型提供更多计算步骤。
•

工具。对于 ALM，工具是一个外部模块，通常使用规则或特殊词符进行调用，其输出包含在 ALM 的上下文中。该工具可以收集外部信息，或者对虚拟或物理世界产生影响（通常由 ALM 感知）。获取外部信息的工具的例子是文档检索器，而具有外部效果的工具是机械臂。可以在训练或推理时调用工具。更一般地说，学习与工具交互可能包括学习调用其 API。
•

行动。对于 ALM，调用对虚拟或物理世界有影响的工具并观察结果，通常是将其包含在 ALM 的当前上下文中。例如，调查中的一些作品讨论了网络搜索或通过语言模型操纵机械臂。稍微滥用术语，我们有时会将 ALM 对工具的调用表示为操作，即使它没有外部效果。

为什么要共同讨论推理和工具？

语言模型中推理和工具的结合应该能够在没有启发式的情况下解决广泛的复杂任务，因此具有更好的泛化能力。通常，推理会促进 LM 将给定问题分解为可能更简单的子任务，而工具将有助于正确执行每个步骤，例如从数学运算中获取结果。换句话说，推理是 LM 组合不同工具来解决复杂任务的一种方式，而工具是一种通过有效分解避免推理失败的方式。双方都应该从对方中受益。此外，推理和工具可以放在同一个引擎盖下，因为两者都增强了 LM 的上下文，以便它更好地预测丢失的标记，尽管方式不同。

为什么要共同讨论工具和行动？

LM 可以以相同的方式调用收集附加信息的工具以及对虚拟或物理世界有影响的工具。例如，LM 输出用于解决数学运算的 Python 代码与 LM 输出 Python 代码用于操作机械臂之间似乎没有区别。调查中讨论的一些作品已经在使用对虚拟或物理世界产生影响的 LM：根据这种观点，我们可以说 LM 有行动的潜力，并期望在 LM 作为自主代理的方向上取得重要进展。

1.2我们的分类

我们将调查中包含的作品分解为三个轴。 2 部分研究了增强 LM 推理能力（如上文所定义）的工作。 3 部分重点介绍允许 LM 与外部工具交互并采取行动的工作。最后，第4部分探讨了推理和工具的使用是通过启发式还是学习来实现的，例如通过监督或强化来实现。本次调查自然可以选择其他轴，并在 5 节中进行讨论。为了简洁起见，本次调查重点关注将推理或工具与 LM 相结合的作品。然而，读者应该记住，这些技术中的许多技术最初是在 LM 之外的其他环境中引入的，如果需要，请参阅我们提到的论文的介绍和相关工作部分。最后，虽然我们关注大语言模型，但并不是我们考虑的所有作品都采用大型模型，因此我们坚持使用语言模型来保证调查剩余部分的正确性。

2推理

一般来说，推理是使用证据和逻辑进行推理的能力。推理可分为常识推理（McCarthy等人，1960；Levesque等人，2012）、数学推理（Cobbe等人，2021）等多种技能、符号推理(Wei等人, 2022c)等。推理通常涉及推理链的演绎，称为多步推理。在 LM 的上下文中，我们将使用第 1 节中提供的推理定义。之前的工作表明，大语言模型可以解决简单的推理问题，但无法解决复杂的推理问题（Creswell等人，2022）：因此，本节重点讨论增强LM推理能力的各种策略。 LM 复杂推理问题的挑战之一是通过将其预测的正确答案组合到子问题中来正确获得解决方案。例如，LM 可能会正确预测名人的出生和死亡日期，但可能无法正确预测年龄。 Press 等人 (2022) 将这种差异称为 LM 的组合性差距。在本节的其余部分中，我们将讨论与 LM 中引出推理的三种流行范式相关的工作。请注意，Huang 和 Chang (2022) 提出了一项关于语言模型推理的调查。乔等人(2022)还提出了一项关于推理的调查，但重点是提示。由于我们目前的工作重点是推理与工具相结合，因此我们建议读者参考Huang and Chang (2022)； Qiao 等人 (2022) 对大语言模型推理工作进行了更深入的回顾。

2.1 通过提示引发推理

近年来，促使LM解决各种下游任务已成为主导范式（Brown等人，2020）。在提示中，来自下游任务的示例被转换，以便将它们表述为语言建模问题。提示通常采用两种形式之一：零样本，直接用测试示例的输入提示模型；和少样本，其中很少有任务示例与测试示例的输入一起前置。这种少样本提示也称为情境学习或少样本学习。与要求输入后直接输出/答案的“天真的”提示相反，启发式提示鼓励 LM 在预测输出/答案之前通过遵循中间步骤来解决任务。 Wei 等人 (2022c) 表明，启发式提示使 LM 在少样本环境中成为更好的推理者。后来，Kojima 等人 (2022) 在零样本设置中表现出了类似的能力。我们将在下面的段落中详细讨论它们。

样本设置少。

Wei等人(2022c)介绍了思想链(CoT)，这是一种针对语言模型的少样本提示技术。提示由任务示例组成，输入后面是导致最终输出的中间推理步骤，如图 1 所示。表 1 显示 CoT 优于标准提示方法。 Wei 等人 (2022b) 观察到少样本策略的成功随着规模的扩大而显现，而 Tay 等人 (2022) 补充说，无需微调，成功使用CoT一般需要100B+参数LM，如LaMDA (Thoppilan 等人, 2022)、PaLM (Chowdhery 等人, 2022) 或 GPT3 (Brown 等人, 2020; Ouyang 等人, 2022)，然后提出 UL2，一个 20B 开源模型，可以执行 CoT。使用少样本 CoT 提示，Minerva (Lewkowycz 等人, 2022) 在 GSM8K 等数学基准上取得了优异的性能 (Cobbe 等人, 2021)。 Wang 等人 (2022c) 通过自洽进一步提高 CoT：使用 CoT 从给定语言模型中采样不同的推理路径，并选择最一致的答案作为最终答案。按等人(2022)引入自问，这是一种CoT精神的提示。自我询问不是为模型提供如图1所示的连续思想链，而是在回答之前明确指出后续问题并依赖于支架（例如，“后续问题：” 或 “因此最终答案是：”)，以便答案更容易解析。作者在他们引入的旨在测量组合性差距的数据集上展示了对 CoT 的改进。他们观察到，当增加模型尺寸时，这种差距并没有缩小。请注意，Press 等人 (2022) 专注于 2 跳问题，即，模型只需组成两个事实即可获得答案的问题。有趣的是，自我询问可以很容易地通过搜索引擎进行增强（参见第3节）。 ReAct (Yao 等人, 2022b) 是另一种引出推理的少样本提示方法，可以在整个推理步骤中查询三个工具：搜索和在维基百科中查找，然后完成返回答案。 ReAct 将在接下来的部分中更详细地讨论。

图1：少样本思维链提示的一个例子。 <LM> 表示通过上述提示调用 LM。

零样本设置。

Kojima 等人 (2022) 将 LM 中引发推理的想法扩展到零样本提示。少样本提供了手头任务的示例，而零样本则以单个提示为条件，而不是示例。在这里，Kojima 等人 (2022) 只需在查询模型之前将 Let's think step by step 附加到输入问题（见图 2)，并证明大型 LM 的零样本 CoT 在 GSM8K 等推理任务上表现良好，尽管不如少样本 CoT。

图2：零样本思想链提示的一个例子。 <LM> 表示通过上述提示调用 LM。

Model	Accuracy (%)
OpenAI (text-davinci-002)^[1]	15.6
OpenAI (text-davinci-002) + CoT^[1]	46.9
OpenAI (text-davinci-002) + CoT + Calculator^[1]	46.9
OpenAI (code-davinci-002)^[1]	19.7
OpenAI (code-davinci-002) + CoT^[1]	63.1
OpenAI (code-davinci-002) + CoT + Calculator^[1]	65.4
GPT-3 175B + FT + CoT + Calculator^[2]	34.0
GPT-3 175B + FT + CoT + Calculator + Verifier^[2]	55.0
PaLM 540B^[3]	17.0
PaLM 540B+CoT^[3]	54.0
PaLM 540B+CoT+Calculator^[3]	58.0
PAL^[4]	72.0

表1：在流行的推理基准 GSM8K 上评估不同推理方法。 FT 表示微调，CoT 表示思想链。报告的准确度基于[1]：(Wei 等人, 2022c)； [2]: (Cobbe 等人, 2021); [3]: (Chowdhery 等人, 2022); [4]：（高等人，2022）。

2.2 递归提示

一些工作试图通过将问题明确地分解为子问题来引发中间推理步骤，以便以分而治之的方式解决问题。这种递归方法对于复杂任务特别有用，因为组合泛化对于 LM 来说可能具有挑战性（Lake 和 Baroni，2018；Keysers 等人，2019；Li 等人，2022a）。采用问题分解的方法可以独立解决子问题，将这些答案聚合起来生成最终答案 (Perez 等人, 2020; Min 等人, 2019)，或者解决子问题- 顺序问题，其中下一个子问题的解取决于前一个子问题的答案 (Yang 等人, 2022a; Zhou 等人, 2022; Drozdov 等人, 2022; Dua 等人, 2022; Khot等人，2022；王等人，2022a；吴等人，2022b)。例如，在数学问题中，从最少到最多提示(Zhou 等人, 2022) 允许语言模型解决比演示示例更难的问题将复杂问题分解为一系列子问题。它首先采用少样本提示将复杂问题分解为子问题，然后依次解决提取出的子问题，并用前一个子问题的解来回答下一个子问题。

虽然许多早期的作品包括通过远程监督学习分解（Perez 等人，2020；Talmor 和 Berant，2018；Min 等人，2019），例如 Zhou 等人（2022），最近的许多作品都采用情境学习来做到这一点（Yang 等人，2022a；Khot 等人，2022；Dua 等人，2022）。其中，还有进一步的差异。例如，Drozdov 等人 (2022) 是 Zhou 等人 (2022) 的后续工作，但不同之处在于使用一系列提示来执行递归语法分析。输入的分解而不是线性分解，并且通过各种启发式自动选择样本也有所不同。 Dua 等人 (2022) 与 Zhou 等人 (2022) 并行工作，但不同之处在于问题分解和回答阶段交织在一起，即下一个子问题预测具有访问以前的问题和答案，而不是独立于任何以前的答案生成所有子问题。 Yang等人(2022a)则利用基于规则的原理和填槽提示进行分解，将问题转化为一系列SQL操作。 Khot 等人 (2022) 还使用提示分解为特定操作，但随后允许使用专用处理程序库来解决每个子问题，其中每个处理程序专门用于特定的子任务（例如，检索）。

图3：递归提示示例。 <LM> 表示 LM 向提示符输出的开始，而 </LM> 表示结束。问题首先在Prompt 0中分解为子问题。然后，子问题 2 的答案 2 和子问题 1 的答案 1 依次馈送到提示 2 和提示 1。省略了每个阶段提示的少样本示例。灵感来自Zhou 等人(2022)中的图1。

2.3 显式地教授语言模型进行推理

尽管取得了令人瞩目的结果，但除了需要模型规模之外，提示方法还存在一些缺点。也就是说，他们需要找到引发例如的提示。逐步推理，在涉及新任务的少样本时手动提供示例。此外，在长提示的情况下，提示的计算成本很高，并且由于模型的上下文大小有限，很难从相对大量的示例中受益。最近的研究建议通过训练 LM 来规避这些问题，以便在需要多个步骤才能正确解决一项任务时，像人类一样使用工作记忆。 Nye 等人 (2021) 引入了暂存器的概念，使 LM 能够更好地执行加法或代码执行等多步计算任务。更准确地说，在训练时，LM 会看到输入任务，例如加法以及相关的中间步骤：整体称为暂存器。在测试时，模型需要预测输入任务的步骤和答案。便签本与上述提示策略的不同之处在于，它们针对具有相关计算步骤的示例任务进行了微调。但请注意，Nye 等人 (2021) 也在少样本方案中进行实验。 Taylor等人（2022年）在大型LM预训练中使用了类似的方法：Galactica是在包括一些文档在内的科学数据语料库上训练的，其中的分步推理用特殊的词符<work>和</work>包裹，以模仿内部工作记忆。在推理时，可以通过 <work> 词符明确要求模型激活这种推理模式。 Taylor 等人训练 (2022) 认为推理示例时会出现另一个问题：从互联网上收集的训练数据中可能会丢失许多中间推理步骤，因为人类并没有明确地写出所有推理脚步。为了避免缺失步骤的问题，作者创建了具有详细推理过程的数据集。图4展示了Galoidica预训练期间看到的提示示例。

最近的其他工作通过微调提高了预训练 LM 的推理能力。 Zelikman 等人 (2022) 提出了一种引导方法，为大量未标记数据生成推理步骤（也称为基本原理），并使用该数据来调节模型。 Yu 等人 (2022) 表明，与预先训练的模型相比，标准 LM 对推理任务的微调可以带来更好的推理技能，例如文本蕴涵、溯因推理和类比推理。此外，几种指令微调方法（Ouyang等人，2022；Chung等人，2022；Iyer等人，2022；Ho等人，2022）使用思维链式提示来实现与 BBH (Srivastava 等人，2022) 和 MMLU (Hendrycks 等人，2021) 等流行基准相比有显着改进。有趣的是，所有这些工作还表明，小规模指令微调模型可以比未微调的大规模模型表现得更好，特别是在指令遵循很重要的任务中。

图4：工作记忆示例来自 Taylor 等人 (2022)。在 LM 预训练期间可以看到此提示及其输出。

2.4 摘要推理的比较和局限性

总的来说，推理可以看作是迭代或递归地将问题分解为一系列子问题。⁴⁴4这里，推理被描述为顺序操作。然而，可以考虑其他推理结构，例如树。例如，Lample 等人 (2022) 利用树对不同策略进行建模，从而证明给定定理。策略是一组必须是真实的或本身已被证明的中间结果，因此分解为中间结果的另一个新子集。探索尽可能多的推理路径是困难的，并且不能保证中间步骤是有效的。产生忠实推理轨迹的一种方法是为每个推理步骤生成成对的问题及其相应的答案（Creswell 和 Shanahan，2022），但仍然无法保证这些中间步骤的正确性。总体而言，推理 LM 寻求自行改进其上下文，以便有更多机会输出正确答案。 LM 在多大程度上实际使用规定的推理步骤来支持最终预测仍然知之甚少（Yu 等人，2022）。

在许多情况下，某些推理步骤可能会出现可避免的错误，从而损害输出的正确性。例如，推理步骤中重要数学运算的错误可能会导致错误的最终输出。已知的事实也是如此，例如特定年份的总统身份。上面研究的一些作品（Yao 等人，2022b；Press 等人，2022）已经利用了简单的外部工具，例如搜索引擎或计算器验证中间步骤。更一般地说，调查的下一部分重点关注语言模型可以查询的各种工具，以增加输出正确答案的机会。

3使用工具和操作

最近的一系列 LM 研究允许模型访问不一定存储在其权重中的知识，例如给定的事实知识。更准确地说，诸如精确计算或信息检索之类的任务可以卸载到外部模块，例如由模型查询的python解释器或搜索引擎，在这方面，请使用工具。此外，我们可以说当工具对外部世界产生影响时，LM 就会执行一个动作。以特殊标记的形式轻松包含工具和操作的可能性是与转换器相结合的语言建模的一个便利功能。

3.1 调用另一个模型

在许多情况下，该工具可以只是另一个神经网络或 LM 本身。

图5：使用 PEER (Schick 等人, 2022) 的迭代提示示例，这是一个经过训练的 LM，可生成行动计划并在每一步编辑输入文本。可以重复此过程，直到生成的文本不需要进一步更新。 <LM> 表示 LM 向提示符输出的开始，而 </LM> 表示结束。

迭代 LM 调用。

作为针对单个优化提示进行优化的替代方案，从 LM 获得更好结果的直观方法是重复调用模型以迭代地细化其输出。 Re3 (Yang 等人, 2022c) 利用这个想法自动生成两千多字的故事。更准确地说，Re3首先通过用前提提示GPT3(Brown 等人，2020)来生成计划、场景和人物。然后，Re3 迭代地将来自计划和当前故事状态的信息注入到新的 GPT3 提示中，以生成新的故事段落。这项工作在 Yang 等人 (2022b) 中得到了改进，使用了学习的详细大纲程序，该大纲程序可以迭代地将简短的初始大纲扩展到任何所需的粒度级别。其他教导模型以无监督方式迭代改进文本的方法包括填空（Shen 等人，2020；Donahue 等人，2020）等应用到将高斯向量序列去噪为词向量（李等人，2022c）。例如，PEER (Schick 等人, 2022) 是从 LM-Adapted T5 (Raffel 等人, 2020）并接受了维基百科编辑方面的培训，学习如何进行编辑以及如何规划后续步骤。因此，PEER能够通过反复策划和编辑来开发文章，如图5。迭代方法的另一个好处是允许将复杂的任务（例如故事和文章生成）分解为更小的子任务。重要的是，除了 PEER 之外，上述工作都采用启发式方法来调用 LM。未来的研究方向可能包括允许 LM 重复调用自身，直到输出满足某个标准。 Wu 等人 (2022a) 提出了一种管道交互接口，允许将多个 LM 链接在一起，而不是仅仅重复调用单个模型，其中一个步骤的输出作为输入传递到下一个步骤。这些贡献使得非 AI 专家能够改进单个 LM 无法正确处理的复杂任务的解决方案。

利用其他方式。

文本形式的提示可能不包含足够的上下文来正确执行给定的任务。例如，如果以严肃或讽刺的语气提出问题，则不会要求相同的答案。将各种模式纳入上下文可能对于聊天机器人等语言模型很有用。正如 Hao 等人 (2022) 和 Alayrac 等人 (2022) 最近所证明的那样，LM 还可以用作通用接口，模型在不同的平台上进行预训练。方式。例如，Hao 等人 (2022) 采用了许多预先训练的编码器，可以处理视觉和语言等多种模态，并将它们连接到充当通用任务层的 LM。接口和模块化编码器通过半因果语言建模目标联合预训练。这种方法结合了因果和非因果语言建模的优点，实现了上下文学习和开放式生成，以及编码器的轻松微调。同样，Alayrac 等人 (2022) 引入了 Flamingo，这是一个视觉语言模型 (VLM) 系列，可以处理任何交错的视觉和文本数据序列。 Flamingo 模型在包含交错文本和图像的大规模多模态网络语料库上进行训练，这使它们能够显示多模态任务的上下文少样本学习能力。只需少量带注释的示例，Flamingo 就可以轻松适应视觉问答和字幕等生成任务，以及多项选择视觉问答等分类任务。 Zeng 等人 (2022) 介绍了苏格拉底模型，这是一种模块化框架，其中可以组成零样本，在不同模态上预训练的各种模型。这使得模型能够相互交换信息并获得新的多模式功能，而无需额外的微调。苏格拉底模型通过与外部 API 和数据库（例如搜索引擎）接口，支持新的应用程序，例如机器人感知和规划、关于以自我为中心的视频的自由形式问答或多模式辅助对话。有趣的是，可以结合图像等其他模式来提高中等规模 LM 的推理能力 (1B) (Zhang 等人, 2023)。

3.2信息检索

LM 可以通过记忆单元进行增强，例如通过最近输入的神经缓存（Grave 等人，2017；Merity 等人，2017），以提高其推理能力。另外，自然语言形式的知识可以通过从外部知识源检索来完全从语言模型中卸载。记忆增强策略帮助语言模型避免产生非事实和过时的信息，并减少实现与大型语言模型相当的性能所需的参数数量。

3.2.1 检索增强语言模型

密集和稀疏的猎犬。

存在两种类型的检索器可用于增强 LM：密集检索器和稀疏检索器。稀疏检索器使用文档和查询的稀疏词袋表示（Robertson 和 Zaragoza，2009）。相比之下，密集神经检索器使用从神经网络（Asai等人，2021）获得的密集查询和密集文档向量。两种类型的检索器都会评估文档与信息查找查询的相关性。这可以通过（i）检查精确的术语重叠或（ii）计算相关概念之间的语义相似性来完成。稀疏检索器在第一个子问题上表现出色，而密集检索器在第二个子问题上表现更好（Luan等人，2021）。

根据检索到的文档调节 LM。

各种工作通过将检索到的文档附加到当前上下文，用密集检索器增强语言模型（Chen 等人，2017；Clark 和 Gardner，2017；Lee 等人，2019；Guu 等人， 2020；Khandelwal 等人，2020；Izacard 等人，2022；Borgeaud 等人，2022）。尽管检索文档来执行问题回答的想法并不新鲜，但检索增强型语言模型最近在除问答之外的其他知识密集型任务中表现出了强大的性能。与使用更多参数的大型 LM 相比，这些建议缩小了性能差距。 REALM (Guu 等人, 2020) 是第一个使用编码器 LM 联合训练端到端检索系统的方法。 RAG (Lewis 等人, 2020) 使用序列到序列模型联合微调检索器。 Izacard 和 Grave (2020) 引入了对 seq2seq 架构的修改，以有效地处理许多检索到的文档。 Borgeaud 等人 (2022) 专注于一种称为 RETRO 的自回归 LM，并表明将大规模语料库与预训练的冻结 BERT 检索器训练的嵌入消除了进一步训练检索器的需要，同时在不同下游任务上获得与 GPT3 相当的性能。 RETRO 中使用的方法允许将检索集成到现有的预训练 LM 中。 Atlas (Izacard 等人, 2022) 使用序列到序列模型联合训练检索器，以获得具有强大少样本学习能力的 LM，尽管是幅度小于许多其他大型LM。表 2 比较了所讨论模型的主要特征，特别是如何将检索结果集成到 LM 的上下文中。在所有这些情况下，查询都对应于提示。

Model	# Retrieval tokens	Granularity	Retriever training	Retrieval integration
REALM (Guu et al., 2020)	$O(10^{9})$	Prompt	End-to-End	Append to prompt
RAG (Lewis et al., 2020)	$O(10^{9})$	Prompt	Fine-tuning	Cross-attention
RETRO (Borgeaud et al., 2022)	$O(10^{12})$	Chunk	Frozen	Chunked cross-attn.
Atlas (Izacard et al., 2022)	$O(10^{9})$	Prompt	Fine-tuning	Cross-attention

表2：数据库检索增强语言模型之间的比较。受到Borgeaud 等人 (2022) 表 3 的启发。

思维链提示和检索器。

最近的工作（He 等人，2022；Trivedi 等人，2022）提出通过思想链（CoT）将检索器与推理结合起来，提示增强 LM。 He 等人 (2022) 使用 CoT 提示生成由解释和预测对组成的推理路径。然后，检索知识来支持解释，并选择最受证据支持的预测。这种方法不需要任何额外的训练或微调。 Trivedi 等人 (2022) 提出了一种信息检索思想链方法 (IRCoT)，该方法由交叉检索与 CoT 组成，用于多步骤 QA。这个想法是使用检索来指导 CoT 推理步骤，反之，使用 CoT 推理来指导检索步骤。

在所有这些工作中，每个查询都会系统地调用检索器，以便获取相应的文档来增强 LM。这些方法还假设意图包含在查询中。正如 Asai 等人 (2022) 所提议的，通过提供搜索任务（指令）的自然语言描述，可以根据用户的意图来增强查询，以消除意图的歧义。此外，LM 只能偶尔查询检索器——当提示建议它这样做时——这将在下一小节中讨论。

3.2.2 查询搜索引擎

仅接收查询的 LM 可以被视为被动代理。然而，一旦它能够根据提示生成查询，LM 就可以扩大其操作空间并变得更加活跃。

LaMDA 是专为对话应用程序设计的类似代理的 LM 的一个示例。作者根据对话数据以及其他公共网络文档对模型进行了预训练。除此之外，为了确保模型有事实根据并增强其对话能力，它还通过检索、计算器和翻译器进行了增强（Thoppilan 等人，2022）。此外，为了提高模型的安全性，LaMDA还使用带注释的数据进行了微调。另一个例子是 BlenderBot (Shuster 等人, 2022b)，LM 决定根据提示生成查询。此时，该提示对应的是调用搜索引擎工具的指令。 BlenderBot 能够进行开放域对话，它已部署在公共网站上，通过与人类在循环中的持续学习来进一步改进模型。类似地，ReAct使用少样本提示来教LM如何使用不同的工具，例如维基百科中的搜索和查找，以及完成返回答案(Yao 等人, 2022b)。同样，Komeili 等人 (2021)； Shuster 等人 (2022a) 提出了一种模型，该模型学习根据上下文生成互联网搜索查询，然后根据搜索结果生成响应。 ReAct 将推理和行动交错在一起，使两者之间产生更大的协同作用，并提高语言和决策任务的性能。 ReAct 在多种语言和决策任务（例如问答、事实验证或网络和家庭导航）上表现良好。

一般来说，推理可以通过做出更好的推论和预测来改进决策，而使用外部工具的能力可以通过从知识库或环境收集附加信息来改进推理。

3.2.3 搜索和浏览网络

还可以训练代理能够浏览开放式互联网以追求特定目标，例如搜索信息或购买物品。例如，WebGPT (Nakano 等人, 2021) 是一个基于 LM 的代理，它可以与基于自定义文本的 Web 浏览环境进行交互，以回答长期问题形成问题。与其他仅学习如何查询检索器或搜索引擎的模型相比，例如 LaMDA (Thoppilan 等人，2022) 或 BlenderBot （Shuster 等人，2022b）,WebGPT 学习与网络浏览器交互，这使其能够进一步细化初始查询或根据与工具的交互执行其他操作。更具体地说，WebGPT 可以搜索互联网、导航网页、关注链接以及引用来源（有关可用操作的完整列表，请参阅表 3)。通过访问互联网，智能体能够增强其回答问题的能力，甚至根据人类评估者的判断超越人类。最佳模型是通过在人类演示上微调 GPT3 获得的，然后针对经过训练来预测人类偏好的奖励模型执行拒绝采样。类似地，WebShop (Yao 等人, 2022a) 是一个模拟的电子商务网站，代理必须根据给定的指令查找、定制和购买产品。为了实现这一目标，代理必须理解和推理嘈杂的文本，遵循复杂的指令，重新制定查询，导航不同类型的网页，在需要时采取行动收集额外信息，并做出战略决策以实现其目标。观察和动作都以自然语言表达，使得环境非常适合基于 LM 的智能体。该代理由一个 LM 组成，该 LM 通过人类演示的行为克隆(即，问题-人类演示对）进行微调，并使用硬编码奖励函数进行强化学习，该函数验证所购买的商品是否与给定的匹配描述。虽然还有其他关于网络导航和计算机控制的工作，但大多数都采用典型的人机界面，将计算机屏幕的图像作为输入并输出键盘命令以解决数字任务（Shi等人，2017）；Gur 等人，2021；Toyama 等人，2022；Gur 等人，2022）。由于我们的调查重点是基于 LM 的代理，因此我们不会详细讨论这些工作。

3.3 通过符号模块和代码解释器进行计算

尽管最近的 LM 能够正确分解许多问题，但在处理大数或执行复杂算术时仍然容易出错。例如，普通 GPT3 无法执行分布外加法，即对比训练期间看到的数字更大的数字进行加法，即使提供了带注释步骤的示例（钱等人，2022）。在强化学习的背景下，Transformer 代理的动作空间配备了符号模块来执行例如算术或Wang 等人（2022b）中的导航。 Mind’s Eye (Liu 等人, 2022b) 调用物理引擎来支持 LM 的物理推理。更准确地说，文本到代码的 LM 用于为物理引擎生成渲染代码。然后，与回答问题相关的模拟结果会以自然语言形式附加到 LM 提示中。因此，Mind's Eye 能够在某些特定的物理推理任务上超越最大的 LM，同时参数少两个数量级。 PAL (Gao 等人, 2022) 依靠大型 LM 的 CoT 提示将符号推理、数学推理或算法任务分解为中间步骤以及每个步骤的 Python 代码（见图6)。然后，Python 步骤被卸载到 Python 解释器输出最终结果。它们在多个基准测试中的表现优于 CoT 提示，特别是在 GSM-HARD（数字更大的 GSM8K 版本）上。请参阅表1，了解 PAL 与 GSM8K 上其他型号之间的比较。同样，Drori 等人 (2022)； Chen 等人 (2022) 提示 Codex (Chen 等人, 2021) 生成针对大学水平问题、数学应用题、或财务质量保证。在定理证明的背景下，Wu 等人 (2022c) 使用大型 LM 自动形式化 Isabelle 或 HOL 中的非正式数学竞争问题陈述。 Jiang 等人 (2022) 生成正式的证明草图，然后将其输入证明者。

图6：少样本 PAL (Gao 等人, 2022) 提示的示例。 <LM> 表示通过上述提示调用 LM。提示基于图1所示的思路链提示，其中摘取的部分以绿色突出显示。在 PAL 中，提示还包含可执行 python 代码，它执行操作并将结果存储在 answer 变量中。当提示新问题时，PAL 会生成可执行代码和解释的组合。通过执行代码和print(answer)获得答案。

3.4 作用于虚拟和物理世界

虽然以前的工具收集外部信息是为了提高 LM 对给定任务的预测或性能，但其他工具允许 LM 在虚拟或物理世界中采取行动。为了做到这一点，LM 需要通过了解可供性（即在给定状态下可能采取哪些行动及其对世界的影响）来扎根于现实世界。

控制虚拟代理。

最近的工作证明了 LM 在模拟 2D 和 3D 环境中通过输出函数来控制虚拟代理的能力，然后这些函数可以由相应环境中的计算机执行，无论是模拟环境还是现实世界。例如，Li 等人 (2022b) 通过预训练 GPT2 (Radford 等人, 2019) 来处理顺序决策问题将目标和观察结果表示为一系列嵌入并预测下一步行动。该框架能够跨不同领域（包括模拟家庭环境）进行强大的组合泛化。这表明语言模型可以生成不仅可用于建模语言，还可用于建模顺序目标和计划的表示，从而可以改进语言处理之外的任务的学习和泛化。同样，Huang 等人 (2022a) 研究了是否有可能利用 LM 捕获的世界知识来采取特定行动来响应用自然语言编写的高级任务，例如“做早餐”。这项工作首次证明，如果 LM 足够大并且提示正确，它可以将高级任务分解为一系列简单的命令，而无需额外的训练。然而，代理可以访问一组预定的操作，因此并非所有自然语言命令都可以在环境中执行。为了解决这个问题，作者建议使用余弦相似度函数将 LM 建议的命令映射为代理的可行动作。该方法在虚拟家庭环境中进行了评估，与使用 LM 生成的计划（无需额外映射）相比，执行任务的能力得到了提高。虽然这些工作已经证明了 LM 在控制虚拟机器人方面的有用性，但以下段落涵盖了物理机器人上的工作。 Zeng 等人 (2022) 将 LM 与视觉语言模型 (VLM) 和预训练的语言条件策略相结合，用于控制模拟机械臂。 LM 用作多步骤规划器，将高级任务分解为子目标，而 VLM 则用于描述场景中的对象。两者都传递给策略，然后策略根据指定的目标和观察到的世界状态执行操作。 Dasgupta 等人 (2023) 使用 7B 和 70B Chinchilla 作为在 PycoLab 环境中行动并观察结果的代理的规划器。此外，报告模块将动作和观察结果从像素空间转换为文本空间。最后，Carta 等人 (2023) 中的代理使用 LM 为基于文本的任务生成操作策略。通过在线 RL 进行交互式学习，可以将 LM 内部表征与环境联系起来，从而部分偏离在预训练期间获得的有关文本统计表面结构的知识。

Command	Effect
search <query>	Send <query> to the Bing API and display a search results page
clicked on link <link ID>	Follow the link with the given ID to a new page
find in page: <text>	Find the next occurrence of <text> and scroll to it
quote: <text>	If <text> is found in the current page, add it as a reference
scrolled down <1, 2, 3>	Scroll down a number of times
scrolled up <1, 2, 3>	Scroll up a number of times
Top	Scroll to the top of the page
back	Go to the previous page
end: answer	End browsing and move to answering phase
end: <nonsense, controversial>	End browsing and skip answering phase

表3： WebGPT 可以执行的操作取自 Nakano 等人 (2021)。

控制物理机器人。

Liang 等人 (2022) 通过一些演示来提示模型，使用 LM 在给定自然语言命令的情况下编写机器人策略代码。通过结合经典的逻辑结构和引用外部库（例如算术运算），语言模型可以创建展示空间几何推理的策略，泛化到新的指令，并为模糊的描述提供精确的值。该方法的有效性在多个真实的机器人平台上得到了证明。语言模型对有关世界的常识知识进行编码，这对于让机器人遵循以自然语言表达的复杂高级指令非常有用。然而，它们缺乏上下文基础，这使得它们很难在现实世界中用于决策，因为它们不知道在特定情况下哪些行动是可行的。为了缓解这个问题，Ahn 等人（2022）提出教机器人一些低级技能（例如“找到海绵”、“拿起苹果”、“去厨房”）并学习预测它们在任何给定状态下的可行性。然后，LM 可用于将复杂的高级指令从机器人的指令中拆分为更简单的子目标。然后，LM 可以选择最有价值且可行的技能让机器人执行。这样，机器人就可以利用其物理能力来执行 LM 的指令，而 LM 则提供有关任务的语义知识。作者在各种现实世界任务中测试了他们的方法（称为 SayCan)，发现它可以在各种环境中成功完成长的摘要指令。为了解决基础问题，Chen 等人 (2021) 提出了 NLMap-SayCan，这是一个将上下文信息收集到 LM 规划器中的框架。 NLMap 使用视觉语言模型 (VLM) 在生成上下文条件计划之前创建开放词汇可查询场景表示。将上下文信息纳入代理决策的另一种方法是利用来自环境的语言反馈，例如成功检测、对象识别、场景描述或人类交互（Huang 等人，2022b）。这提高了机器人控制任务的性能，例如桌面重新布置和真实厨房中的移动操作。最后，RT-1 (Brohan 等人，2022) 利用大规模、多样化、与任务无关的机器人数据集来学习可以遵循 700 多种自然语言指令的模型，以及推广到新的任务、环境和对象。 RT-1 利用 DIAL (Xiao 等人, 2022)，这是一种通过视觉自动为机器人演示添加语言标签的方法语言对齐模型CLIP （Radford等人，2019）。

4 学习推理、使用工具和行动

前面的部分回顾了可以增强 LM 的什么，以便赋予它们推理和工具。我们现在将介绍如何教授他们这些能力的方法。

4.1监督

教导 LM 推理和行动的一种直接方法是为他们提供所需行为的人工编写演示。常见的方法是 (i) 通过 Brown 等人 (2020) 首先建议的少样本提示，其中为 LM 提供了一些示例作为推理过程中的附加上下文，但没有参数更新执行，或（ii）通过常规的基于梯度的学习。通常，监督学习是在使用语言建模目标进行初始预训练之后进行的（Ouyang 等人，2022；Chung 等人，2022）；一个例外是 Taylor 等人 (2022) 最近的工作，他建议将预训练文本与人工注释的示例混合在一起，这些示例包含某种形式的明确推理，并用特殊的词符标记。一些作者使用监督微调作为中间步骤，然后根据人类反馈进行强化学习（Nakano等人，2021；Ouyang等人，2022）；有关此类方法的深入讨论，请参阅第 4.2 节。

提示样本少。

为 LM 提供一些人工编写的上下文所需行为的演示是一种常见的方法，既可以教他们推理（Wei 等人，2022c；b；Suzgun 等人，2022 ; Press 等人, 2022)并教他们使用工具和行动(Gao 等人, 2022; Lazaridou 等人, 2022; Yao 等人, 2022b)。这主要是因为它的易用性：少样本提示只需要少量手动标记的示例，并且不需要模型微调，因此可以非常快速地进行实验；此外，只需更改提供的提示（Brown等人，2020；Wei等人，2022c），它就可以将相同的模型重复用于不同的推理任务和工具。另一方面，只有当模型达到一定规模时，才会出现通过一些上下文示例进行思维链推理的能力(Wei 等人, 2022b; Chung 等人, 2022)，并且性能在很大程度上取决于示例呈现的格式（Jiang等人，2020；Min等人，2022）、少样本示例的选择以及它们呈现的顺序（Kumar 和 Talukdar，2021；卢等人，2022；周等人，2022）。另一个问题是，可以提供的监督量受到适合 LM 上下文窗口的示例数量的限制；如果（i）一种新行为非常难以学习以至于需要多个示例，或者（ii）我们希望模型学习大量可能的动作，那么这一点尤其重要。除此之外，由于没有执行权重更新，LM 的推理和行动能力完全取决于所提供的提示；删除它也会删除这些能力。

微调。

作为少样本提示的替代方案，预训练的 LM 的推理和行动能力也可以通过使用标准监督学习更新其参数来得出。这种方法已用于教学模型使用工具，包括搜索引擎（Komeili等人，2021；Shuster等人，2022b），网络浏览器（Nakano等人，2021）、计算器和翻译系统（Thoppilan 等人，2022），以及提高推理能力（Chung 等人，2022）。对于后者，推理的例子通常用在指令调优的大背景下 (Mishra 等人, 2021; Sanh 等人, 2022; Wang 等人, 2022d; Ouyang 等人, 2022），更一般地说，LM 遵循指令的能力是根据人类标记的示例得到改进的。示例通常是从众包工作者那里收集的。在某些情况下，它们可以自动获取：Nye 等人 (2021) 使用执行轨迹作为推理监督的形式，而 Andor 等人 (2019) 使用启发式收集监督数据以教授语言模型使用计算器。

及时进行预训练。

在预训练阶段之后进行微调的一个潜在风险是，LM 可能会偏离原始分布很远，并且会过度拟合微调期间提供的示例的分布。为了缓解这个问题，Taylor 等人 (2022) 建议将预训练数据与带标签的推理演示混合起来，类似于早期工作如何将预训练数据与各种下游任务的示例混合起来（Raffel 等人，2020）；然而，与单独的微调阶段相比，这种混合的确切增益尚未经过实证研究。出于类似的目标，Ouyang 等人 (2022) 和 Iyer 等人 (2022) 包含了微调阶段预训练的示例。

引导。

作为标准微调的替代方案，一些作者建议使用引导技术（例如 Yarowsky，1995；Brin，1999）来利用某种形式的间接监督。这通常通过提示 LM 在少样本设置中进行推理或行动来实现，然后进行最终预测；所执行的动作或推理步骤未导致正确的最终预测的示例将被丢弃。例如，STAR (Zelikman 等人, 2022) 提示模型在常识问答设置中生成思维链推理序列，但只保留那些导致正确最终答案的链对于给定的问题。最后，原始 LM 或另一个（通常较小的）模型在所有正确的示例上进行微调。因此，引导结合了少样本提示的数据效率和微调的一些优点，可以成功应用于教授模型推理（Shridhar等人，2022）和使用工具（巴黎等人，2022）。

4.2强化学习

根据人类创建的提示进行监督学习可以有效地教授模型推理和行动。然而，获取此类数据非常困难且成本高昂。人类偏好数据（例如排名或喜欢/不喜欢）比完整演示更容易、更快、更便宜。例如，人们评估摘要的质量可能比从头开始编写摘要更容易。此类数据不能在监督环境中使用，但可以在强化学习 (RL) 的背景下提供奖励（Sutton 和 Barto，2018）。

事实证明，强化学习可以通过基于反馈的环境交互来学习复杂行为，并且已被用于玩游戏等应用（Mnih 等人，2015；Silver 等人，2016；Vinyals 等人，2019； Team 等人, 2021; Bakhtin 等人, 2022) 或控制机器人(Gu 等人, 2017; Kalashnikov 等人, 2018; Akkaya 等人, 2019; Lee 等人, 2020)。当使用 RL 训练 LM 时，LM 可以被视为学习策略的代理（即模型词汇表的分布，从中采样下一个词符）以优化某些奖励函数。大多数关于 RL 和 ALM 的现有工作都集中在教导 LM 如何行动而不是推理。关于学习如何通过 RL 进行推理的最接近的工作是 STaR (Zelikman 等人, 2022)，这是一种基于引导的方法，在 4.1 节中讨论

强化学习是训练 LM 行动和使用工具的自然框架，因为许多工具是不可微分的（例如搜索引擎、计算器或编程语言解释器）。此外，许多受益于与工具交互的任务类似于顺序决策问题（例如，导航网络浏览器购买指定产品）并且具有明确定义的奖励（例如，如果模型购买，则 $1$ 正确的产品，否则 $0$ )。虽然早期的工作专注于可以与外部工具交互的模型，但它们采用了临时的依赖于工具的架构（Adolphs 等人，2022；Buck 等人，2018；Nogueira 和 Cho，2017；Zhong 等人， 2018）。我们在这里不讨论它们，因为我们调查的主要焦点是用语言建模目标训练的标准通用 LM 架构的执行和推理能力。

硬编码奖励函数。

当教 LM 如何使用外部工具时，标准做法是使用硬编码奖励函数生成的标量奖励来更新模型的权重。该任务相关函数是根据工具输出计算的。 LM 代理接受文本输入（在 RL 术语中对应于环境的当前状态），并生成一系列标记或 RL 术语中的动作。优化是通过 REINFORCE （Williams，1992）、PPO 和类似变体（Schulman 等人，2017；Ramamurthy 等人，2022）等策略梯度算法完成的。

最初的训练 LM 通过 RL 使用工具的工作主要集中在搜索和获取额外的事实信息。此类信息查找任务的常用工具是文档检索器、问答系统和搜索引擎。前两个包括从预定义的文本文档集中检索文档，或根据某些输入查询检索答案。然而，搜索引擎允许更结构化的交互式搜索，例如，模型进一步细化初始查询或基于工具的初始输出执行附加操作。例如，Wu 等人 (2022d) 通过 RL 教 LM 重写查询以将其提供给现成的检索器来执行会话问答。奖励函数是一种对比检索准确性度量，基于后续对话轮次和检索到的段落之间的词符重叠。另一个例子是 Liu 等人 (2022a) 的工作：RAINIER 是一个 LM，能够生成上下文相关的问题，这些问题经过优化以查询冻结的 QA 系统. 将较大的 GPT3 (Brown 等人, 2020) 模型中的知识提炼为较小的 T5 模型 (Raffel 等人, 2020) ),RAINIER 使用 PPO (Schulman 等人，2017) 进行微调，并由 Khashabi 等人的预训练问答模型提供反馈（2020）。有趣的是，这项工作是 LM 学习使用另一个冻结神经模型作为外部工具的示例。

Yao 等人 (2022a) 使用强化学习教授语言模型来导航虚拟商店并购买受颜色和价格等属性限制的商品。与 WebGPT (Nakano 等人, 2021) 类似，该模型以文本格式给出目标，并允许执行一组有限的操作。在多任务学习设置中，根据用户生成的指令提示，模型需要同时理解查询并浏览网络以搜索正确的产品。奖励是一个硬编码的文本匹配函数，基于模型购买的商品书面描述与给定的购物指令之间的相似性。使用 A3C 算法（Mnih 等人，2016）进行优化，该算法是标准 actor-critic 方法的变体。虽然该模型仍然落后于人类专家，但他们发现在人类演示训练后使用强化学习进行微调可以提高性能。这提供了额外的证据，证明基于奖励的学习可以赋予 LM 与外部工具交互的能力。

虽然与搜索引擎或文档检索器交互允许模型通过附加输入来增强其当前上下文，但在与诸如知识库。 Dognin 等人 (2021) 训练 LM，通过执行 text2graph 和 graph2text 任务来学习如何与基于图的知识库进行交互。该模型基于 T5 架构（Raffel 等人，2020），并使用普通策略梯度算法 REINFORCE （Williams，1992）进行训练，可以执行文本和图形的双向生成，并显示与文本知识库自动构建相关的任务的最先进性能，反之亦然。基于 T5 的代理经过训练，可以直接最大化 graph2text 指标，例如 BLEU （Papineni 等人，2002a）、METEOR （Banerjee 和 Lavie，2005）和 chrF++ (Popović, 2017)，或 text2graph，例如 F1、Precision 和 Recall。

人类反馈。

评估机器生成文本的质量并非易事，因为它可能会根据上下文、个人偏好和用户意图而变化。例如，在某些情况下，用户可能需要创意写作，而在其他情况下可能只需要事实信息。模型输出应该进行相应的判断，并且应该能够捕获这种意图差异。已经开发了一些基于启发式的指标，例如 BLEU （Papineni 等人，2002b）和 ROUGE （Lin，2004），用于将模型输出与参考文本进行比较。然而，他们未能充分捕捉几代人关于人类意图的品质。可以利用人类反馈来提高机器生成文本的质量，例如对话代理（Xu等人，2022）。特别是，人类反馈强化学习（RLHF）（Knox and Stone, 2008; MacGlashan 等人, 2017; Christiano 等人, 2017; Warnell 等人, 2018）旨在通过使用人类偏好作为评估指标和优化语言模型的目标函数。使用 RLHF 使 LM 能够更紧密地符合复杂的人类偏好和价值观，而这些偏好和价值观很难通过硬编码的奖励函数来捕获。

RLHF 的工作原理是使用预先训练的 LM 生成文本，然后由人类进行评估，例如对同一提示的两个模型生成进行排名。然后收集这些数据以学习奖励模型，该模型可以预测给定任何生成文本的标量奖励。奖励捕捉了人类在判断模型输出时的偏好。最后，使用 PPO (Schulman 等人，2017) 等 RL 策略梯度算法针对此类奖励模型对 LM 进行优化。 RLHF 可以直接应用在通过自监督学习预训练的通用 LM 之上。然而，对于更复杂的任务，模型的生成可能不够好。在这种情况下，RLHF 通常在初始监督微调阶段之后应用，使用少量专家演示来完成相应的下游任务（Ramamurthy 等人，2022；Ouyang 等人，2022；Stiennon 等人，2020）。

RLHF 用于教 LM 使用外部工具的成功示例源自 WebGPT Nakano 等人 (2021)（在 3.2.3 中讨论） >)，一个能够使用搜索引擎回答问题并提供支持此类答案的参考的模型。该工具界面是一个简化的基于文本的网络浏览器。该模型架构基于GPT3（Brown等人，2020），并经过训练以执行以自然语言表达的浏览动作。该模型在问题-人类演示对上进行微调，然后通过 RLHF 进一步优化。在两个 QA 数据集上，WebGPT 的答案相对于人类生成的答案更受欢迎，并且往往比原始的普通 GPT3 模型更加真实。类似地，Menick 等人 (2022) 提出了 GopherCite，一个基于 Gopher 的 LM 模型 (Rae 等人, 2021) 与 RLHF 进行微调，可以在回答问题时引用支持证据，并在不确定时放弃回答。与WebGPT相比，GopherCite使用信息检索外部模块而不是网络浏览器来查找相关信息，从而提高其问答能力。除了学习使用外部工具之外，RLHF 还被证明可用于各种语言生成任务，从摘要（Ziegler 等人，2019；Wu 等人，2021；Stiennon 等人，2020）到训练更有帮助、无害且准确的助手（Glaese 等人，2022；Cohen 等人，2022；Ouyang 等人，2022；Bai 等人，2022）。由于这些作品不关注推理和行动的训练模型，因此不在本次调查的范围之内。

4.3 限制和未来方向

尽管最近在算法上取得了进步和性能改进，但当前的强化学习方法仍然存在不稳定问题，导致训练变得困难且缓慢（Ramamurthy 等人，2022；Snell 等人，2022）。虽然监督学习是在特定任务上构建语言模型的一种高效且稳健的方法（Mishra 等人，2021；Sanh 等人，2022；Wang 等人，2022b），但这假设存在大量的专家演示，获得这些演示可能很困难且成本高昂。对于需要推理和行动而我们没有现成可用数据的任务尤其如此。缺乏质量数据问题的一个可能解决方案可能来自引导方法和离线强化学习。他们结合了“两全其美”，训练更加稳定，同时能够通过反馈和交互进行改进，即使没有大量示例来解决感兴趣的任务。最近的工作（Zelikman等人，2022；Snell等人，2022）表明，此类方法可以达到超越专家演示的性能或比初始模型一代有所改进。例如，Snell 等人 (2022) 引入了一种名为 ILQL 的新离线 RL 算法，该算法通过估计价值函数并使用它来优化 LM 生成，从演示的静态数据集及其相关奖励中学习。 ILQL 将在线 RL 灵活优化框架与监督学习的简单性和从现有数据集学习的能力相结合，从而在对话任务上取得良好的性能。正如 4 节中所解释的，Zelikman 等人 (2022) 采用引导方法来训练 LM 进行推理，这可以被视为策略梯度算法的近似。最近，Schick 等人（2023）提出了Toolformer，这是一种以自我监督的方式教会自己使用工具的模型。这是通过首先使用现有 LM 的少样本能力来对大量潜在工具用途进行采样来实现的。例如，模型可以调用计算器 API 来增强其上下文，例如“在 1400 名参与者中，400 名（或 [计算器(400 / 1400)→ 0.29] 29% 通过了测试。然后，该模型对其自己的 Token 进行微调，根据它们是否减少了未来 Token Token 的困惑来过滤它们。此方法允许使用多种工具（例如，日历、计算器或信息检索系统)。然而，它是在一次使用单个工具的有限设置中进行测试的，因为工具使用的示例是独立采样的。我们相信，研究如何将这种方法扩展到更复杂的多步骤工具使用，对于基于 LM 的通才智能体来说是一个有前途的研究方向。

5讨论

远离语言建模。

经过训练可以执行中间推理步骤或访问互联网的模型是否仍纯粹执行语言建模？事实上，在 NLP 中，语言建模（Bahl 等人，1983）通常被定义为在给定上下文的情况下预测缺失标记的任务，并且严重依赖于预训练模型。然而，后期模型中已经发展了几种技术(Ziegler 等人, 2019; Wei 等人, 2022a; Sanh 等人, 2022)来执行各种自然语言任务，这可以被视为移动远离传统的语言建模。特别是，用于 LM 的文本不仅可以在互联网上找到，而且旨在明确注入某种程度的基础。 Goldberg (2023) 最近提出的论点之一是“从此类直接指令中学习可能比从非指令数据中学习容易得多 ”。这个论点可以得到 Giannou 等人 (2023) 最近的工作的支持，从理论上和实践上都表明，即使是浅环 Transformer 也可以遵循指令并被编程为通用计算机。直观上，文本是隐藏的复杂中间思想的结果。因此，用于监督的表面文字可以被视为仅代表这些思想的日志，从而缺乏上下文。相反，使用面向任务的监督数据，我们可以通过中间步骤明确地得出答案。在这方面，所得模型可能不被视为语言模型。然而，任务仍然是仅预测给定文本的下一个词符。对于 ALM 来说，这个论点更加正确，因为它们可以增强其上下文。特别是，工具增强的 LM 实际上可能失去为下一个词符分配概率的能力 - 这是语言建模的核心：而常规 LM 可以轻松计算 $p(x_{t}\mid x_{1},\ldots,x_{t-1})$ ，工具增强的 LM LM 必须考虑所有可能的工具用途，例如 $p(x_{t}\mid x_{1},\ldots,x_{t-1})=\sum_{c}p(c)\cdot p(x_{t}\mid x_{1},\ldots,x_{t-1},c)$ 其中 $c$ 是一个工具，可能不易处理。出于这些原因，我们在本次调查中提到增强语言模型（ALM），以区别于传统意义上的语言建模。

记忆和查询工具之间的权衡。

是记住模型权重中的信息更好，还是利用外部工具更好？有些情况可能需要外部工具，例如计算 $213443^{344}$ 。然而，许多信息是众所周知的事实，例如“埃菲尔铁塔位于巴黎”或 $1+2=3$ ，不应该被卸载。而且，在学习单词的表征时，记忆不仅是可取的，而且与推理密切相关（Hayes等人，2014）。 ALM 是否可以进行足够的校准来决定何时使用工具以及何时不使用工具？是否可以将每个工具的计算预算整合到损失中，让模型学会这样做？

推广非参数框架。

信息检索背后的动机增强了语言模型，例如 RETRO (Borgeaud 等人, 2022) 和 Atlas (Izacard 等人, 2022) 是通过依赖外部非参数存储器来开发一类需要较少参数的LM。到目前为止，使用代码解释器或计算器等其他类型工具的动机略有不同：例如，Cobbe等人（2021）使用计算器提高需要算术的任务的准确性。然而，工具增强型语言模型的范式可以被视为非参数框架的推广。事实上，除了信息检索之外，语言模型还可以将任何类型的能力（例如微积分）委托给相应的外部工具。通过避免在权重中存储很少访问的知识，工具增强的 LM 可能具有更好的缩放法则，从而产生更小的模型，保留其最大模型的功能。结合从外部世界访问最新信息从而避免频繁更新的可能性，非参数泛化为 ALM 带来了巨大的好处。

通往自主机器智能的道路？

LeCun (2022)提出了自主智能代理的概念。我们现在讨论 ALM 在多大程度上实例化了这个想法。在LeCun (2022)中，智能体由不同的模块组成，从世界模型和短期记忆开始。本质上，智能体通过基于其世界模型、感知模块和短期记忆的参与者模块采取行动，以最小化一些成本。该代理还配备了一个配置器模块，用于调节世界模型、感知、参与者和给定手头任务的成本。

转化为这个框架，ALM 的权重本质上包含世界模型、感知和参与者模块。短期记忆可以通过 ALM 的上下文或提示来识别。基于对上下文和世界模型的感知，ALM 将通过输出特殊 Token 来采取行动，并感知结果。配置器模块仍然难以捉摸，但可能是隐含的：它可以被视为由 ALM 上下文引发的调节，例如“您是一位善良且乐于助人的助手”之类的初始提示。最后，成本在此框架中保持固定，并且可能是 ALM 的复杂性与推理和使用外部工具相关的计算成本的混合。

然而，LeCun (2022) 中代理的一个重要特征是它的计划能力，通过将复杂任务分解为子任务来定义：在 ALM 的背景下，计划类似于推理，稍微有点滥用术语，因为尚不清楚 LM 是否像人类一样进行推理，如第 2 节中所述。 LeCun (2022) 提出将推理（在术语规划下）实现为相对于行动的分层组合的能量最小化。由于 ALM 仅在词符级别执行预测，因此它们无法根据 LeCun (2022) 的观点进行推理，并且可能仍仅限于系统 1 任务，即依赖于依靠反射而不是逻辑和思维。系统 2，即，是否能通过推动当前方法获得相反的能力，仍不确定。例如，超过最大序列长度的 LM 就失去了全局一致性：举例来说，对同一 LM 的两次不同讨论将导致不一致。当解决需要执行大量子目标的复杂问题（例如撰写研究论文）时，这是一个很大的限制，其中一个人具有包括当前结果和论文角度的初始心理状态。这个过程不是线性的，而是由不同的相互作用产生的，例如，在阅读一些相关作品时产生的新想法。在整个过程中，尽管不断更新，但精神状态仍保持不变，以便我们牢记大局。尽管更多的计算和更大的输入量可以缓解这个问题，但另一种解决方案可能是为 LM 提供足够的组件。在这方面，如 LeCun (2022) 中所建议的从本质上使 LM 与能量函数一致的模型架构可能会成为一个有前途的场所。

最后，我们的调查将语言模型视为多面手智能体的核心部分，它可以用自然语言进行推理并与外部工具交互。沿着这些思路，Wang 等人 (2023) 使用 LM 作为集中式规划器来生成解决 Minecraft 游戏中任务的目标序列。通过反馈循环和对子目标执行的中间检查，LM 可以解释目标执行者的错误并完善其原始计划。然而，我们注意到基于 LM 的控制器可能不是通用代理的唯一可行方法。最近关于外交游戏的工作（Bakhtin 等人，2022），由于其复杂的规划和推理动态，对人工智能代理来说是一个长期的挑战，它采用了通过自我训练训练的临时规划模型。游戏和强化学习。这里LM用于与其他玩家交互，因此作为基于游戏当前状态的外部通信模块。这提供了另一种观点，即 LM 作为专门与人类交流的代理，尽管是在外交游戏的限制环境中。我们相信，(A)LM 将在下一代强大的交互系统中发挥核心作用，无论是作为模块化系统的集中控制器，还是作为需要与编排器交互的纯语言模块，仍然是一个开放的研究问题。

增强语言模型的好处。

总体而言，ALM 比传统 LM 具有许多潜在优势。

•

真实性：由于当前的 LM 训练目标可以说是负责激发看似合理但并非事实的信息的生成，因此通过某些工具进行预测应该会产生更值得信赖的模型。然而，尽管在为 LM 配备计算器时这个结论很简单，但令人惊讶的是，对于信息检索增强型 LM （Krishna 等人，2021）却几乎没有证据。原因之一是网络上存在大量不真实的信息。研究这个方向对于使 LM 变得可靠至关重要。
•

估计和减少不确定性：通过让模型推理和访问附加信息来扩展最大似然范式可以帮助模型了解他们知道什么和不知道什么。一些论文表明 LM 已经被很好地校准了（Kadavath 等人，2022），即它们的预测准确性和相应的可能性之间存在高度相关性。 ALM 可以直接利用这种不确定性来了解何时依赖自己的权重，或何时查询外部工具。
•

可解释性：深度学习模型通常被认为是黑匣子，它们的预测很难解释。提供中间推理步骤并依赖工具应该有助于使 ALM 更具可解释性。特别是，我们可以预期能够引用用于撰写答案的来源至关重要。然而，一些著作Lewkowycz 等人(2022)指出，即使中间推理没有任何意义，思想链也能得出正确的预测，这表明研究人员探索这一问题面临着明显的挑战方向。
•

增强的功能：与标准 LM 相比，具有改进的推理能力和工具的 ALM 可以成为更有用的助手，并解决更广泛的任务。例如，连接到 python 解释器的 ALM 可以代表用户运行代码和实验，而普通 LM 则无法做到这一点。此外，推理和行动之间可以出现反馈循环，其中每种能力进一步提高另一种（Yao等人，2022b）。与外部工具、实体和环境交互可以改进推理，因为它允许 ALM 收集额外的信息并将其置于现实世界中。同样，推理可以提高 ALM 的决策能力，例如何时以及如何使用某种工具。

道德问题。

ALM 引发了新的潜在道德问题。基于工具的 LM 预测可能看起来更值得信赖和权威，但实际上其中许多预测仍然是错误的。此外，我们可以预期这种现象会被放大，因为 LM 的推理方式与人类非常相似（Dasgupta 等人，2022），使得检测错误变得更加困难。虽然这些问题适用于大多数工具，但区分被动工具和主动工具很重要。前者将外部信息收集到LM的上下文中，而后者，例如让LM控制搜索引擎，允许它在虚拟或物理世界上采取行动，而无需循环中的人工验证，从而扩大了LM可能产生的有害后果的范围用法。我们正在从独立于外部环境生成文本的被动 LM 转向在现实世界中起作用的 ALM。在此背景下，上述道德问题可能会进一步引起共鸣，因为 ALM 将连接到越来越多的工具和环境。

6结论

这项调查展示了语言模型通过更好的推理和工具得到增强的作品。在大多数作品中，语言模型通过额外的相关信息来增强其上下文，以执行缺失的词符预测。由于许多增强都是非参数的，即涉及调用外部的、可能是非参数的模块，因此此类 LM 可以说背离了经典语言建模范式，因此我们决定将它们称为增强语言模型。尽管有一些作品关注 LM 的推理或表演技巧，但大多数都依赖于可能无法扩展的人类标注，例如，手工制作的少样本提示，或根据人类反馈进行强化学习。如何以完全自我监督的方式为语言模型配备有意义的增强仍然是一个悬而未决的研究问题。此外，由于很少有作品将推理和工具结合起来，未来的工作应该研究这两种技能之间的整合和富有成效的互动。总的来说，我们相信，研究增强语言模型是一个有前途且令人兴奋的研究途径，旨在实现能够实现复杂且有用的人机交互的下一代深度学习系统。

致谢

我们感谢 Marco Baroni 对草案提供了宝贵的反馈。

参考

Adolphs et al. (2022) Leonard Adolphs, Benjamin Boerschinger, Christian Buck, Michelle Chen Huebscher, Massimiliano Ciaramita, Lasse Espeholt, Thomas Hofmann, and Yannic Kilcher. Boosting search engines with interactive agents. Transactions on Machine Learning Research (TMLR), 2022.
Ahn et al. (2022) Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, et al. Do as i can, not as i say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
Akkaya et al. (2019) Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, et al. Solving rubik’s cube with a robot hand. arXiv preprint arXiv:1910.07113, 2019.
Alayrac et al. (2022) Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, et al. Flamingo: a visual language model for few-shot learning. Advances in Neural Information Processing Systems (NeurIPS), 2022.
Andor et al. (2019) Daniel Andor, Luheng He, Kenton Lee, and Emily Pitler. Giving BERT a calculator: Finding operations and arguments with reading comprehension. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019.
Asai et al. (2021) Akari Asai, Xinyan Yu, Jungo Kasai, and Hannaneh Hajishirzi. One question answering model for many languages with cross-lingual dense passage retrieval. Advances in Neural Information Processing Systems (NeurIPS), 2021.
Asai et al. (2022) Akari Asai, Timo Schick, Patrick Lewis, Xilun Chen, Gautier Izacard, Sebastian Riedel, Hannaneh Hajishirzi, and Wen-tau Yih. Task-aware retrieval with instructions. arXiv preprint arXiv:2211.09260, 2022.
Bahl et al. (1983) Lalit R. Bahl, Frederick Jelinek, and Robert L. Mercer. A maximum likelihood approach to continuous speech recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, PAMI-5(2):179–190, 1983.
Bai et al. (2022) Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, et al. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073, 2022.
Bakhtin et al. (2022) Anton Bakhtin, Noam Brown, Emily Dinan, Gabriele Farina, Colin Flaherty, Daniel Fried, Andrew Goff, Jonathan Gray, Hengyuan Hu, Athul Paul Jacob, Mojtaba Komeili, Karthik Konath, Minae Kwon, Adam Lerer, Mike Lewis, Alexander H. Miller, Sandra Mitts, Adithya Renduchintala, Stephen Roller, Dirk Rowe, Weiyan Shi, Joe Spisak, Alexander Wei, David J. Wu, Hugh Zhang, and Markus Zijlstra. Human-level play in the game of diplomacy by combining language models with strategic reasoning. Science, 378:1067 – 1074, 2022.
Banerjee and Lavie (2005) Satanjeev Banerjee and Alon Lavie. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments. In Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, pages 65–72. Association for Computational Linguistics, 2005.
Borgeaud et al. (2022) Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, and Laurent Sifre. Improving language models by retrieving from trillions of tokens. In International Conference on Machine Learning (ICML), 2022.
Brin (1999) Sergey Brin. Extracting patterns and relations from the world wide web. In The World Wide Web and Databases, pages 172–183. Springer Berlin Heidelberg, 1999.
Brohan et al. (2022) Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Joseph Dabis, Chelsea Finn, Keerthana Gopalakrishnan, Karol Hausman, Alex Herzog, Jasmine Hsu, et al. Rt-1: Robotics transformer for real-world control at scale. arXiv preprint arXiv:2212.06817, 2022.
Brown et al. (2020) Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners, 2020.
Buck et al. (2018) Christian Buck, Jannis Bulian, Massimiliano Ciaramita, Wojciech Gajewski, Andrea Gesmundo, Neil Houlsby, and Wei Wang. Ask the right questions: Active question reformulation with reinforcement learning. International Conference on Learning Representations (ICLR), 2018.
Carta et al. (2023) Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, and Pierre-Yves Oudeyer. Grounding large language models in interactive environments with online reinforcement learning, 2023.
Chen et al. (2017) Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. Reading wikipedia to answer open-domain questions. arXiv preprint arXiv:1704.00051, 2017.
Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code, 2021.
Chen et al. (2022) Wenhu Chen, Xueguang Ma, Xinyi Wang, and William W. Cohen. Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks, 2022.
Chowdhery et al. (2022) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, and Noah Fiedel. Palm: Scaling language modeling with pathways. arXiv, 2022.
Christiano et al. (2017) Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems (NeurIPS), 2017.
Chung et al. (2022) Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, et al. Scaling instruction-finetuned language models. arXiv preprint arXiv:2210.11416, 2022.
Clark and Gardner (2017) Christopher Clark and Matt Gardner. Simple and effective multi-paragraph reading comprehension. arXiv preprint arXiv:1710.10723, 2017.
Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
Cohen et al. (2022) Deborah Cohen, Moonkyung Ryu, Yinlam Chow, Orgad Keller, Ido Greenberg, Avinatan Hassidim, Michael Fink, Yossi Matias, Idan Szpektor, Craig Boutilier, et al. Dynamic planning in open-ended dialogue using reinforcement learning. arXiv preprint arXiv:2208.02294, 2022.
Creswell and Shanahan (2022) Antonia Creswell and Murray Shanahan. Faithful reasoning using large language models. arXiv preprint arXiv:2208.14271, 2022.
Creswell et al. (2022) Antonia Creswell, Murray Shanahan, and Irina Higgins. Selection-inference: Exploiting large language models for interpretable logical reasoning. arXiv preprint arXiv:2205.09712, 2022.
Dasgupta et al. (2022) Ishita Dasgupta, Andrew K Lampinen, Stephanie CY Chan, Antonia Creswell, Dharshan Kumaran, James L McClelland, and Felix Hill. Language models show human-like content effects on reasoning. arXiv preprint arXiv:2207.07051, 2022.
Dasgupta et al. (2023) Ishita Dasgupta, Christine Kaeser-Chen, Kenneth Marino, Arun Ahuja, Sheila Babayan, Felix Hill, and Rob Fergus. Collaborating with language models for embodied reasoning, 2023.
Devlin et al. (2019) Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL), 2019.
Dognin et al. (2021) Pierre L Dognin, Inkit Padhi, Igor Melnyk, and Payel Das. Regen: Reinforcement learning for text and knowledge base generation using pretrained language models. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2021.
Donahue et al. (2020) Chris Donahue, Mina Lee, and Percy Liang. Enabling language models to fill in the blanks. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2020.
Drori et al. (2022) Iddo Drori, Sarah Zhang, Reece Shuttleworth, Leonard Tang, Albert Lu, Elizabeth Ke, Kevin Liu, Linda Chen, Sunny Tran, Newman Cheng, et al. A neural network solves, explains, and generates university math problems by program synthesis and few-shot learning at human level. Proceedings of the National Academy of Sciences, 119(32), 2022.
Drozdov et al. (2022) Andrew Drozdov, Nathanael Schärli, Ekin Akyürek, Nathan Scales, Xinying Song, Xinyun Chen, Olivier Bousquet, and Denny Zhou. Compositional semantic parsing with large language models. arXiv preprint arXiv:2209.15003, 2022.
Dua et al. (2022) Dheeru Dua, Shivanshu Gupta, Sameer Singh, and Matt Gardner. Successive prompting for decomposing complex questions. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022.
Gao et al. (2022) Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, and Graham Neubig. Pal: Program-aided language models, 2022.
Giannou et al. (2023) Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D Lee, and Dimitris Papailiopoulos. Looped transformers as programmable computers. arXiv preprint arXiv:2301.13196, 2023.
Glaese et al. (2022) Amelia Glaese, Nat McAleese, Maja Trębacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, Soňa Mokrá, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, and Geoffrey Irving. Improving alignment of dialogue agents via targeted human judgements. arXiv preprint arXiv:2209.14375, 2022.
Goldberg (2023) Yoav Goldberg. Some remarks on large language models, 2023. URL https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8a9.
Grave et al. (2017) Edouard Grave, Armand Joulin, and Nicolas Usunier. Improving neural language models with a continuous cache. In International Conference on Learning Representations (ICLR), 2017.
Gu et al. (2017) Shixiang Gu, Ethan Holly, Timothy Lillicrap, and Sergey Levine. Deep reinforcement learning for robotic manipulation with asynchronous off-policy updates. In 2017 IEEE international conference on robotics and automation (ICRA), pages 3389–3396, 2017.
Gur et al. (2019) Izzeddin Gur, Ulrich Rueckert, Aleksandra Faust, and Dilek Hakkani-Tur. Learning to navigate the web. International Conference on Learning Representations (ICLR), 2019.
Gur et al. (2021) Izzeddin Gur, Natasha Jaques, Kevin Malta, Manoj Tiwari, Honglak Lee, and Aleksandra Faust. Adversarial environment generation for learning to navigate the web. arXiv preprint arXiv:2103.01991, 2021.
Gur et al. (2022) Izzeddin Gur, Ofir Nachum, Yingjie Miao, Mustafa Safdari, Austin Huang, Aakanksha Chowdhery, Sharan Narang, Noah Fiedel, and Aleksandra Faust. Understanding html with large language models. arXiv preprint arXiv:2210.03945, 2022.
Guu et al. (2020) Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. Retrieval augmented language model pre-training. In International Conference on Machine Learning (ICML), 2020.
Hao et al. (2022) Yaru Hao, Haoyu Song, Li Dong, Shaohan Huang, Zewen Chi, Wenhui Wang, Shuming Ma, and Furu Wei. Language models are general-purpose interfaces. arXiv preprint arXiv:2206.06336, 2022.
Hayes et al. (2014) Brett K Hayes, Evan Heit, and Caren M Rotello. Memory, reasoning, and categorization: parallels and common mechanisms. Frontiers in Psychology, 5:529, 2014.
He et al. (2022) Hangfeng He, Hongming Zhang, and Dan Roth. Rethinking with retrieval: Faithful large language model inference. arXiv preprint arXiv:2301.00303, 2022.
Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. In Advances in Neural Information Processing Systems (NeurIPS), 2021.
Ho et al. (2022) Namgyu Ho, Laura Schmid, and Se-Young Yun. Large language models are reasoning teachers, 2022.
Hoffmann et al. (2022) Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, Elena Buchatskaya, Trevor Cai, Eliza Rutherford, Diego de Las Casas, Lisa Anne Hendricks, Johannes Welbl, Aidan Clark, et al. Training compute-optimal large language models. arXiv preprint arXiv:2203.15556, 2022.
Huang and Chang (2022) Jie Huang and Kevin Chen-Chuan Chang. Towards reasoning in large language models: A survey. arXiv preprint arXiv:2212.10403, 2022.
Huang et al. (2022a) Wenlong Huang, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. arXiv preprint arXiv:2201.07207, 2022a.
Huang et al. (2022b) Wenlong Huang, Fei Xia, Ted Xiao, Harris Chan, Jacky Liang, Pete Florence, Andy Zeng, Jonathan Tompson, Igor Mordatch, Yevgen Chebotar, et al. Inner monologue: Embodied reasoning through planning with language models. arXiv preprint arXiv:2207.05608, 2022b.
Humphreys et al. (2022) Peter C Humphreys, David Raposo, Tobias Pohlen, Gregory Thornton, Rachita Chhaparia, Alistair Muldal, Josh Abramson, Petko Georgiev, Adam Santoro, and Timothy Lillicrap. A data-driven approach for learning to control computers. In International Conference on Machine Learning (ICML), 2022.
Iyer et al. (2022) Srinivasan Iyer, Xi Victoria Lin, Ramakanth Pasunuru, Todor Mihaylov, Daniel Simig, Ping Yu, Kurt Shuster, Tianlu Wang, Qing Liu, Punit Singh Koura, Xian Li, Brian O’Horo, Gabriel Pereyra, Jeff Wang, Christopher Dewan, Asli Celikyilmaz, Luke Zettlemoyer, and Ves Stoyanov. Opt-iml: Scaling language model instruction meta learning through the lens of generalization. arXiv preprint arXiv:2212.12017, 2022.
Izacard and Grave (2020) Gautier Izacard and Edouard Grave. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282, 2020.
Izacard et al. (2022) Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. Atlas: Few-shot learning with retrieval augmented language models. arXiv preprint arXiv:2208.03299, 2022.
Jiang et al. (2022) Albert Q Jiang, Sean Welleck, Jin Peng Zhou, Wenda Li, Jiacheng Liu, Mateja Jamnik, Timothée Lacroix, Yuhuai Wu, and Guillaume Lample. Draft, sketch, and prove: Guiding formal theorem provers with informal proofs. arXiv preprint arXiv:2210.12283, 2022.
Jiang et al. (2020) Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neubig. How can we know what language models know? Transactions of the Association for Computational Linguistics, 8, 2020.
Kadavath et al. (2022) Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield-Dodds, Nova DasSarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah, and Jared Kaplan. Language models (mostly) know what they know. arXiv preprint arXiv:2207.05221, 2022.
Kalashnikov et al. (2018) Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, et al. Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation. arxiv e-prints, page. arXiv preprint arXiv:1806.10293, 2018.
Keysers et al. (2019) Daniel Keysers, Nathanael Schärli, Nathan Scales, Hylke Buisman, Daniel Furrer, Sergii Kashubin, Nikola Momchev, Danila Sinopalnikov, Lukasz Stafiniak, Tibor Tihon, et al. Measuring compositional generalization: A comprehensive method on realistic data. In International Conference on Learning Representations, 2019.
Khandelwal et al. (2020) Urvashi Khandelwal, Omer Levy, Dan Jurafsky, Luke Zettlemoyer, and Mike Lewis. Generalization through Memorization: Nearest Neighbor Language Models. In International Conference on Learning Representations (ICLR), 2020.
Khashabi et al. (2020) Daniel Khashabi, Sewon Min, Tushar Khot, Ashish Sabharwal, Oyvind Tafjord, Peter Clark, and Hannaneh Hajishirzi. Unifiedqa: Crossing format boundaries with a single qa system. arXiv preprint arXiv:2005.00700, 2020.
Khot et al. (2022) Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, and Ashish Sabharwal. Decomposed prompting: A modular approach for solving complex tasks. arXiv preprint arXiv:2210.02406, 2022.
Knox and Stone (2008) W Bradley Knox and Peter Stone. Tamer: Training an agent manually via evaluative reinforcement. In 2008 7th IEEE international conference on development and learning, pages 292–297. IEEE, 2008.
Kojima et al. (2022) Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems (NeurIPS), 2022.
Komeili et al. (2021) Mojtaba Komeili, Kurt Shuster, and Jason Weston. Internet-augmented dialogue generation. ArXiv, abs/2107.07566, 2021.
Krishna et al. (2021) Kalpesh Krishna, Aurko Roy, and Mohit Iyyer. Hurdles to progress in long-form question answering. arXiv preprint arXiv:2103.06332, 2021.
Kumar and Talukdar (2021) Sawan Kumar and Partha Talukdar. Reordering examples helps during priming-based few-shot learning. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, pages 4507–4518, Online, August 2021. Association for Computational Linguistics. doi: 10.18653/v1/2021.findings-acl.395. URL https://aclanthology.org/2021.findings-acl.395.
Lake and Baroni (2018) Brenden Lake and Marco Baroni. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In International conference on machine learning, pages 2873–2882. PMLR, 2018.
Lample et al. (2022) Guillaume Lample, Marie-Anne Lachaux, Thibaut Lavril, Xavier Martinet, Amaury Hayat, Gabriel Ebner, Aurélien Rodriguez, and Timothée Lacroix. Hypertree proof search for neural theorem proving. In Advances in Neural Information Processing Systems (NeurIPS), 2022.
Lazaridou et al. (2022) Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, and Nikolai Grigorev. Internet-augmented language models through few-shot prompting for open-domain question answering, 2022. URL https://arxiv.org/abs/2203.05115.
LeCun (2022) Yann LeCun. A path towards autonomous machine intelligence, 2022.
Lee et al. (2020) Joonho Lee, Jemin Hwangbo, Lorenz Wellhausen, Vladlen Koltun, and Marco Hutter. Learning quadrupedal locomotion over challenging terrain. Science robotics, 5(47):eabc5986, 2020.
Lee et al. (2019) Kenton Lee, Ming-Wei Chang, and Kristina Toutanova. Latent retrieval for weakly supervised open domain question answering. arXiv preprint arXiv:1906.00300, 2019.
Levesque et al. (2012) Hector Levesque, Ernest Davis, and Leora Morgenstern. The winograd schema challenge. In Thirteenth international conference on the principles of knowledge representation and reasoning, 2012.
Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks. In Advances in Neural Information Processing Systems (NeurIPS), 2020.
Lewkowycz et al. (2022) Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, Yuhuai Wu, Behnam Neyshabur, Guy Gur-Ari, and Vedant Misra. Solving quantitative reasoning problems with language models, 2022.
Li et al. (2022a) Belinda Li, Jane Yu, Madian Khabsa, Luke Zettlemoyer, Alon Halevy, and Jacob Andreas. Quantifying adaptability in pre-trained language models with 500 tasks. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4696–4715, Seattle, United States, July 2022a. Association for Computational Linguistics. doi: 10.18653/v1/2022.naacl-main.346. URL https://aclanthology.org/2022.naacl-main.346.
Li et al. (2022b) Shuang Li, Xavier Puig, Yilun Du, Clinton Wang, Ekin Akyurek, Antonio Torralba, Jacob Andreas, and Igor Mordatch. Pre-trained language models for interactive decision-making. arXiv preprint arXiv:2202.01771, 2022b.
Li et al. (2022c) Xiang Lisa Li, John Thickstun, Ishaan Gulrajani, Percy Liang, and Tatsunori B Hashimoto. Diffusion-lm improves controllable text generation. arXiv preprint arXiv:2205.14217, 2022c.
Liang et al. (2022) Jacky Liang, Wenlong Huang, Fei Xia, Peng Xu, Karol Hausman, Brian Ichter, Pete Florence, and Andy Zeng. Code as policies: Language model programs for embodied control. arXiv preprint arXiv:2209.07753, 2022.
Lin (2004) Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81, 2004.
Liu et al. (2022a) Jiacheng Liu, Skyler Hallinan, Ximing Lu, Pengfei He, Sean Welleck, Hannaneh Hajishirzi, and Yejin Choi. Rainier: Reinforced knowledge introspector for commonsense question answering. arXiv preprint arXiv:2210.03078, 2022a.
Liu et al. (2022b) Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, and Andrew M Dai. Mind’s eye: Grounded language model reasoning through simulation. arXiv preprint arXiv:2210.05359, 2022b.
Lu et al. (2022) Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp. Fantastically ordered prompts and where to find them: Overcoming few-shot prompt order sensitivity. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8086–8098, Dublin, Ireland, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.acl-long.556. URL https://aclanthology.org/2022.acl-long.556.
Luan et al. (2021) Yi Luan, Jacob Eisenstein, Kristina Toutanova, and Michael Collins. Sparse, Dense, and Attentional Representations for Text Retrieval. Transactions of the Association for Computational Linguistics, 9:329–345, 04 2021. ISSN 2307-387X. doi: 10.1162/tacl_a_00369. URL https://doi.org/10.1162/tacl_a_00369.
MacGlashan et al. (2017) James MacGlashan, Mark K Ho, Robert Loftin, Bei Peng, Guan Wang, David L Roberts, Matthew E Taylor, and Michael L Littman. Interactive learning from policy-dependent human feedback. In International Conference on Machine Learning, pages 2285–2294. PMLR, 2017.
McCarthy et al. (1960) John McCarthy et al. Programs with common sense. RLE and MIT computation center Cambridge, MA, USA, 1960.
Menick et al. (2022) Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, et al. Teaching language models to support answers with verified quotes. arXiv preprint arXiv:2203.11147, 2022.
Merity et al. (2017) Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. Pointer sentinel mixture models. In International Conference on Learning Representations (ICLR), 2017.
Min et al. (2019) Sewon Min, Victor Zhong, Luke Zettlemoyer, and Hannaneh Hajishirzi. Multi-hop reading comprehension through question decomposition and rescoring. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6097–6109, 2019.
Min et al. (2022) Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, and Luke Zettlemoyer. Rethinking the role of demonstrations: What makes in-context learning work?, 2022. URL https://arxiv.org/abs/2202.12837.
Mishra et al. (2021) Swaroop Mishra, Daniel Khashabi, Chitta Baral, and Hannaneh Hajishirzi. Natural instructions: Benchmarking generalization to new tasks from natural language instructions. arXiv preprint arXiv:2104.08773, 2021.
Mnih et al. (2015) Volodymyr Mnih, Koray Kavukcuoglu, David Silver, Andrei A. Rusu, Joel Veness, Marc G. Bellemare, Alex Graves, Martin Riedmiller, Andreas K. Fidjeland, Georg Ostrovski, Stig Petersen, Charles Beattie, Amir Sadik, Ioannis Antonoglou, Helen King, Dharshan Kumaran, Daan Wierstra, Shane Legg, and Demis Hassabis. Human-level control through deep reinforcement learning. Nature, 518(7540):529–533, February 2015. ISSN 00280836. URL http://dx.doi.org/10.1038/nature14236.
Mnih et al. (2016) Volodymyr Mnih, Adrià Puigdomènech Badia, Mehdi Mirza, Alex Graves, Tim Harley, Timothy P. Lillicrap, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In Proceedings of the 33rd International Conference on International Conference on Machine Learning - Volume 48, ICML’16, page 1928–1937. JMLR.org, 2016.
Nakano et al. (2021) Reiichiro Nakano, Jacob Hilton, Suchir Balaji, Jeff Wu, Long Ouyang, Christina Kim, Christopher Hesse, Shantanu Jain, Vineet Kosaraju, William Saunders, et al. Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332, 2021.
Nogueira and Cho (2017) Rodrigo Nogueira and Kyunghyun Cho. Task-oriented query reformulation with reinforcement learning. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 574–583, Copenhagen, Denmark, September 2017. Association for Computational Linguistics. doi: 10.18653/v1/D17-1061. URL https://aclanthology.org/D17-1061.
Nye et al. (2021) Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, and Augustus Odena. Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114, 2021.
Ouyang et al. (2022) Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, and Ryan Lowe. Training language models to follow instructions with human feedback. arXiv preprint arXiv:2203.02155, 2022.
Papineni et al. (2002a) Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2002a.
Papineni et al. (2002b) Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pages 311–318, 2002b.
Parisi et al. (2022) Aaron Parisi, Yao Zhao, and Noah Fiedel. Talm: Tool augmented language models. arXiv preprint arXiv:2205.12255, 2022.
Perez et al. (2020) Ethan Perez, Patrick Lewis, Wen-tau Yih, Kyunghyun Cho, and Douwe Kiela. Unsupervised question decomposition for question answering. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.
Popović (2017) Maja Popović. chrF++: words helping character n-grams. In Proceedings of the Second Conference on Machine Translation, pages 612–618. Association for Computational Linguistics, 2017.
Press et al. (2022) Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, and Mike Lewis. Measuring and narrowing the compositionality gap in language models, 2022.
Qian et al. (2022) Jing Qian, Hong Wang, Zekun Li, Shiyang Li, and Xifeng Yan. Limitations of language models in arithmetic and symbolic induction, 2022.
Qiao et al. (2022) Shuofei Qiao, Yixin Ou, Ningyu Zhang, Xiang Chen, Yunzhi Yao, Shumin Deng, Chuanqi Tan, Fei Huang, and Huajun Chen. Reasoning with language model prompting: A survey, 2022.
Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners, 2019.
Rae et al. (2021) Jack W. Rae, Sebastian Borgeaud, Trevor Cai, Katie Millican, Jordan Hoffmann, Francis Song, John Aslanides, Sarah Henderson, Roman Ring, Susannah Young, Eliza Rutherford, Tom Hennigan, Jacob Menick, Albin Cassirer, Richard Powell, George van den Driessche, Lisa Anne Hendricks, Maribeth Rauh, Po-Sen Huang, Amelia Glaese, Johannes Welbl, Sumanth Dathathri, Saffron Huang, Jonathan Uesato, John Mellor, Irina Higgins, Antonia Creswell, Nat McAleese, Amy Wu, Erich Elsen, Siddhant Jayakumar, Elena Buchatskaya, David Budden, Esme Sutherland, Karen Simonyan, Michela Paganini, Laurent Sifre, Lena Martens, Xiang Lorraine Li, Adhiguna Kuncoro, Aida Nematzadeh, Elena Gribovskaya, Domenic Donato, Angeliki Lazaridou, Arthur Mensch, Jean-Baptiste Lespiau, Maria Tsimpoukelli, Nikolai Grigorev, Doug Fritz, Thibault Sottiaux, Mantas Pajarskas, Toby Pohlen, Zhitao Gong, Daniel Toyama, Cyprien de Masson d’Autume, Yujia Li, Tayfun Terzi, Vladimir Mikulik, Igor Babuschkin, Aidan Clark, Diego de Las Casas, Aurelia Guy, Chris Jones, James Bradbury, Matthew Johnson, Blake Hechtman, Laura Weidinger, Iason Gabriel, William Isaac, Ed Lockhart, Simon Osindero, Laura Rimell, Chris Dyer, Oriol Vinyals, Kareem Ayoub, Jeff Stanway, Lorrayne Bennett, Demis Hassabis, Koray Kavukcuoglu, and Geoffrey Irving. Scaling language models: Methods, analysis & insights from training gopher, 2021.
Raffel et al. (2020) Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research (JMLR), 2020.
Ramamurthy et al. (2022) Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kianté Brantley, Jack Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, and Yejin Choi. Is reinforcement learning (not) for natural language processing?: Benchmarks, baselines, and building blocks for natural language policy optimization. arXiv preprint arXiv:2210.01241, 2022.
Robertson and Zaragoza (2009) Stephen Robertson and Hugo Zaragoza. The probabilistic relevance framework: BM25 and beyond. Now Publishers Inc, 2009.
Sanh et al. (2022) Victor Sanh, Albert Webson, Colin Raffel, Stephen Bach, Lintang Sutawika, Zaid Alyafeai, Antoine Chaffin, Arnaud Stiegler, Arun Raja, Manan Dey, M Saiful Bari, Canwen Xu, Urmish Thakker, Shanya Sharma Sharma, Eliza Szczechla, Taewoon Kim, Gunjan Chhablani, Nihal Nayak, Debajyoti Datta, Jonathan Chang, Mike Tian-Jian Jiang, Han Wang, Matteo Manica, Sheng Shen, Zheng Xin Yong, Harshit Pandey, Rachel Bawden, Thomas Wang, Trishala Neeraj, Jos Rozen, Abheesht Sharma, Andrea Santilli, Thibault Fevry, Jason Alan Fries, Ryan Teehan, Teven Le Scao, Stella Biderman, Leo Gao, Thomas Wolf, and Alexander M Rush. Multitask prompted training enables zero-shot task generalization. In International Conference on Learning Representations (ICLR), 2022.
Schick et al. (2022) Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, and Sebastian Riedel. Peer: A collaborative language model. arXiv preprint arXiv:2208.11663, 2022.
Schick et al. (2023) Timo Schick, Jane Dwivedi-Yu, Roberto Dessì†, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761, 2023.
Schulman et al. (2017) John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347, 2017.
Scialom et al. (2022) Thomas Scialom, Tuhin Chakrabarty, and Smaranda Muresan. Continual-t0: Progressively instructing 50+ tasks to language models without forgetting. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022.
Shen et al. (2020) Tianxiao Shen, Victor Quach, Regina Barzilay, and Tommi Jaakkola. Blank language models. In Conference on Empirical Methods in Natural Language Processing (EMNLP), 2020.
Shi et al. (2017) Tianlin Shi, Andrej Karpathy, Linxi Fan, Jonathan Hernandez, and Percy Liang. World of bits: An open-domain platform for web-based agents. In International Conference on Machine Learning (ICML), 2017.
Shridhar et al. (2022) Kumar Shridhar, Alessandro Stolfo, and Mrinmaya Sachan. Distilling multi-step reasoning capabilities of large language models into smaller models via semantic decompositions. arXiv preprint arXiv:2212.00193, 2022.
Shuster et al. (2022a) Kurt Shuster, Mojtaba Komeili, Leonard Adolphs, Stephen Roller, Arthur Szlam, and Jason Weston. Language models that seek for knowledge: Modular search & generation for dialogue and prompt completion. arXiv preprint arXiv:2203.13224, 2022a.
Shuster et al. (2022b) Kurt Shuster, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung, Moya Chen, Kushal Arora, Joshua Lane, Morteza Behrooz, William Ngan, Spencer Poff, Naman Goyal, Arthur Szlam, Y-Lan Boureau, Melanie Kambadur, and Jason Weston. Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage. arXiv preprint arXiv:2208.03188, 2022b.
Silver et al. (2016) David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc Lanctot, et al. Mastering the game of go with deep neural networks and tree search. Nature, 529(7587):484–489, 2016.
Snell et al. (2022) Charlie Snell, Ilya Kostrikov, Yi Su, Mengjiao Yang, and Sergey Levine. Offline rl for natural language generation with implicit language q learning. arXiv preprint arXiv:2206.11871, 2022.
Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.
Stiennon et al. (2020) Nisan Stiennon, Long Ouyang, Jeffrey Wu, Daniel Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul F Christiano. Learning to summarize with human feedback. In Advances in Neural Information Processing Systems (NeurIPS), 2020.
Sutton and Barto (2018) Richard S Sutton and Andrew G Barto. Reinforcement learning: An introduction. MIT press, 2018.
Suzgun et al. (2022) Mirac Suzgun, Nathan Scales, Nathanael Schärli, Sebastian Gehrmann, Yi Tay, Hyung Won Chung, Aakanksha Chowdhery, Quoc V. Le, Ed H. Chi, Denny Zhou, and Jason Wei. Challenging big-bench tasks and whether chain-of-thought can solve them, 2022. URL https://arxiv.org/abs/2210.09261.
Talmor and Berant (2018) Alon Talmor and Jonathan Berant. The web as a knowledge-base for answering complex questions. In Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL), 2018.
Tay et al. (2022) Yi Tay, Mostafa Dehghani, Vinh Q Tran, Xavier Garcia, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Neil Houlsby, and Donald Metzler. Unifying language learning paradigms. arXiv preprint arXiv:2205.05131, 2022.
Taylor et al. (2022) Ross Taylor, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. Galactica: A large language model for science. arXiv preprint arXiv:2211.09085, 2022.
Team et al. (2021) Open Ended Learning Team, Adam Stooke, Anuj Mahajan, Catarina Barros, Charlie Deck, Jakob Bauer, Jakub Sygnowski, Maja Trebacz, Max Jaderberg, Michael Mathieu, et al. Open-ended learning leads to generally capable agents. arXiv preprint arXiv:2107.12808, 2021.
Thoppilan et al. (2022) Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Aaron Cohen, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi, and Quoc Le. Lamda: Language models for dialog applications. arXiv preprint arXiv:2201.08239, 2022.
Tirumala et al. (2022) Kushal Tirumala, Aram H. Markosyan, Luke Zettlemoyer, and Armen Aghajanyan. Memorization without overfitting: Analyzing the training dynamics of large language models. In Advances in Neural Information Processing Systems (NeurIPS), 2022.
Toyama et al. (2021) Daniel Toyama, Philippe Hamel, Anita Gergely, Gheorghe Comanici, Amelia Glaese, Zafarali Ahmed, Tyler Jackson, Shibl Mourad, and Doina Precup. Androidenv: a reinforcement learning platform for android. arXiv preprint arXiv:2105.13231, 2021.
Trivedi et al. (2022) Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. arXiv preprint arXiv:2212.10509, 2022.
Vinyals et al. (2019) Oriol Vinyals, Igor Babuschkin, Wojciech M Czarnecki, Michaël Mathieu, Andrew Dudzik, Junyoung Chung, David H Choi, Richard Powell, Timo Ewalds, Petko Georgiev, et al. Grandmaster level in starcraft ii using multi-agent reinforcement learning. Nature, 575(7782):350–354, 2019.
Wang et al. (2022a) Boshi Wang, Xiang Deng, and Huan Sun. Iteratively prompt pre-trained language models for chain of thought. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022a.
Wang et al. (2022b) Ruoyao Wang, Peter Jansen, Marc-Alexandre Côté, and Prithviraj Ammanabrolu. Behavior cloned transformers are neurosymbolic reasoners. arXiv preprint arXiv:2210.07382, 2022b.
Wang et al. (2022c) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models. Advances in Neural Information Processing Systems (NeurIPS), 2022c.
Wang et al. (2022d) Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, and Daniel Khashabi. Super-natural instructions: Generalization via declarative instructions on 1600+ nlp tasks. In Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.
Wang et al. (2023) Zihao Wang, Shaofei Cai, Anji Liu, Xiaojian Ma, and Yitao Liang. Describe, explain, plan and select: Interactive planning with large language models enables open-world multi-task agents, 2023. URL https://arxiv.org/abs/2302.01560.
Warnell et al. (2018) Garrett Warnell, Nicholas Waytowich, Vernon Lawhern, and Peter Stone. Deep tamer: Interactive agent shaping in high-dimensional state spaces. In Proceedings of the AAAI conference on artificial intelligence, volume 32, 1, 2018.
Wei et al. (2022a) Jason Wei, Maarten Bosma, Vincent Y Zhao, Kelvin Guu, Adams Wei Yu, Brian Lester, Nan Du, Andrew M Dai, and Quoc V Le. Finetuned language models are zero-shot learners. International Conference on Learning Representations (ICLR), 2022a.
Wei et al. (2022b) Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, et al. Emergent abilities of large language models. Transactions on Machine Learning Research (TMLR), 2022b.
Wei et al. (2022c) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. arXiv preprint arXiv:2201.11903, 2022c.
Welleck et al. (2020) Sean Welleck, Ilia Kulikov, Stephen Roller, Emily Dinan, Kyunghyun Cho, and Jason Weston. Neural text generation with unlikelihood training. In International Conference on Learning Representations (ICLR), 2020.
Williams (1992) Ronald J Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8(3):229–256, 1992.
Wu et al. (2021) Jeff Wu, Long Ouyang, Daniel M Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, and Paul Christiano. Recursively summarizing books with human feedback. arXiv preprint arXiv:2109.10862, 2021.
Wu et al. (2022a) Tongshuang Wu, Ellen Jiang, Aaron Donsbach, Jeff Gray, Alejandra Molina, Michael Terry, and Carrie J Cai. Promptchainer: Chaining large language model prompts through visual programming. In CHI Conference on Human Factors in Computing Systems Extended Abstracts, pages 1–10, 2022a.
Wu et al. (2022b) Tongshuang Wu, Michael Terry, and Carrie Jun Cai. Ai chains: Transparent and controllable human-ai interaction by chaining large language model prompts. In CHI Conference on Human Factors in Computing Systems, pages 1–22, 2022b.
Wu et al. (2022c) Yuhuai Wu, Albert Q Jiang, Wenda Li, Markus N Rabe, Charles Staats, Mateja Jamnik, and Christian Szegedy. Autoformalization with large language models. Advances in Neural Information Processing Systems (NeurIPS), 2022c.
Wu et al. (2022d) Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, and Gaurav Singh Tomar. Conqrr: Conversational query rewriting for retrieval with reinforcement learning. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.
Xiao et al. (2022) Ted Xiao, Harris Chan, Pierre Sermanet, Ayzaan Wahid, Anthony Brohan, Karol Hausman, Sergey Levine, and Jonathan Tompson. Robotic skill acquisition via instruction augmentation with vision-language models. arXiv preprint arXiv:2211.11736, 2022.
Xu et al. (2022) Jing Xu, Megan Ung, Mojtaba Komeili, Kushal Arora, Y-Lan Boureau, and Jason Weston. Learning new skills after deployment: Improving open-domain internet-driven dialogue with human feedback, 2022.
Yang et al. (2022a) Jingfeng Yang, Haoming Jiang, Qingyu Yin, Danqing Zhang, Bing Yin, and Diyi Yang. Seqzero: Few-shot compositional semantic parsing with sequential prompts and zero-shot models. Proceedings of the North American Chapter of the Association for Computational Linguistics (NAACL), 2022a.
Yang et al. (2022b) Kevin Yang, Dan Klein, Nanyun Peng, and Yuandong Tian. Doc: Improving long story coherence with detailed outline control. arXiv preprint arXiv:2212.10077, 2022b.
Yang et al. (2022c) Kevin Yang, Nanyun Peng, Yuandong Tian, and Dan Klein. Re3: Generating longer stories with recursive reprompting and revision. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022c.
Yao et al. (2022a) Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. Webshop: Towards scalable real-world web interaction with grounded language agents. Advances in Neural Information Processing Systems (NeurIPS), 2022a.
Yao et al. (2022b) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629, 2022b.
Yarowsky (1995) David Yarowsky. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 1995.
Yu et al. (2022) Ping Yu, Tianlu Wang, Olga Golovneva, X Alkhamissy, Gargi Ghosh, Mona Diab, and Asli Celikyilmaz. Alert: Adapting language models to reasoning tasks. arXiv preprint arXiv:2212.08286, 2022.
Zelikman et al. (2022) Eric Zelikman, Jesse Mu, Noah D Goodman, and Yuhuai Tony Wu. Star: Self-taught reasoner bootstrapping reasoning with reasoning. Advances in Neural Information Processing Systems (NeurIPS), 2022.
Zeng et al. (2022) Andy Zeng, Maria Attarian, Brian Ichter, Krzysztof Choromanski, Adrian Wong, Stefan Welker, Federico Tombari, Aveek Purohit, Michael Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke, and Pete Florence. Socratic models: Composing zero-shot multimodal reasoning with language, 2022. URL https://arxiv.org/abs/2204.00598.
Zhang et al. (2023) Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, and Alex Smola. Multimodal chain-of-thought reasoning in language models, 2023.
Zhong et al. (2018) Victor Zhong, Caiming Xiong, and Richard Socher. Seq2SQL: Generating structured queries from natural language using reinforcement learning, 2018. URL https://openreview.net/forum?id=Syx6bz-Ab.
Zhong et al. (2022) Zexuan Zhong, Tao Lei, and Danqi Chen. Training language models with memory augmentation. In Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022.
Zhou et al. (2022) Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, and Ed Chi. Least-to-most prompting enables complex reasoning in large language models. arXiv preprint arXiv:2205.10625, 2022.
Ziegler et al. (2019) Daniel M Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B Brown, Alec Radford, Dario Amodei, Paul Christiano, and Geoffrey Irving. Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593, 2019.