不同 NLP 任务的大型语言模型中的即时工程方法综述

Shubham Vatsal & Harsh Dubey
Department of Computer Science
New York University, CIMS
New York, USA
{sv2128,hd2225}@nyu.edu
摘要

大型语言模型(大语言模型)在许多不同的自然语言处理(NLP)任务中表现出了卓越的性能。 快速工程在增加大语言模型现有能力以实现各种 NLP 任务的显着性能提升方面发挥着关键作用。 提示工程需要编写称为提示的自然语言指令,以结构化的方式从大语言模型中获取知识。 与之前最先进的(SoTA)模型不同,即时工程不需要基于给定的 NLP 任务进行大量参数重新训练或微调,因此仅在大语言模型的嵌入式知识上进行操作。 此外,大语言模型爱好者可以通过基本的自然语言对话交流或即时工程,智能提取大语言模型的知识,让越来越多的人即使没有深厚的数学机器学习背景也可以尝试大语言模型。 随着过去两年提示工程的流行,研究人员围绕提示设计提出了许多工程技术,以提高大语言模型信息提取的准确性。 在本文中,我们总结了不同的提示技术,并根据它们所用于的不同 NLP 任务将它们组合在一起。 我们进一步详细强调这些提示策略在属于该 NLP 任务的各种数据集上的性能,讨论所使用的相应大语言模型,呈现分类图并讨论特定数据集可能的 SoTA。 总的来说,我们阅读并呈现了对 44 篇研究论文的调查,这些论文讨论了 29 种不同 NLP 任务的 39 种不同的提示方法,其中大部分是在过去两年发表的。

1简介

随着大语言模型的引入,人工智能取得了显着的进步。 大语言模型是在包含数百万和数十亿个标记的庞大文本文档语料库上进行训练的。 事实证明,随着模型参数数量的增加,机器学习模型的性能会提高,这些大语言模型就是如此。 他们在一系列 NLP 任务上取得了前所未有的表现 Chang 等人 (2023),因此引起了学术界和医学、法律、金融等不同行业的广泛兴趣。 现阶段大语言模型的研究重点是通过提示进行推理,而不仅仅是下一个词符预测,这开辟了提示工程的新研究领域。

提示工程是创建自然语言指令或提示,以有组织的方式从大语言模型中提取知识的过程。 与早期的传统模型相比,即时工程仅依赖于大语言模型的嵌入式知识,不需要基于底层 NLP 任务进行大量的参数重新训练或微调。 根据嵌入的现实世界知识来理解模型参数超出了人类的能力,因此即时工程这个新领域引起了所有人的关注,因为它允许研究人员和大语言模型之间进行自然语言交换,以实现底层 NLP 任务的目标。

在这项工作中,我们列举了几种提示策略,并根据它们所用于的不同 NLP 任务对它们进行分组。 我们提供了一个分类图,列出了在不同 NLP 任务的各种数据集上尝试的提示技术,讨论了所使用的大语言模型,并列出了每个数据集的潜在 SoTA 方法。 作为本次调查的一部分,我们总共回顾和分析了 44 篇研究论文,其中大部分是在过去两年发表的,涵盖了应用于 29 种不同 NLP 任务的 39 种提示技术。 之前并没有很多关于即时工程的系统调查。 Sahoo 等人 (2024) 根据应用调查了 29 篇提示技术论文。 这是一个非常广泛的分类,因为单个应用程序可以封装大量 NLP 任务。 例如,他们讨论的应用程序之一是推理和逻辑,它可以执行大量 NLP 任务,例如常识推理数学问题解决多跳推理 这与我们的方法不同,因为我们根据 NLP 任务对提示策略进行更细粒度的分类。 Edemacu & Wu (2024) 概述了隐私保护提示方法,从而重点关注提示工程的一个相对较小的子领域。 Chen 等人(2023)将提示策略的讨论限制在一些9-10种方法论上,也没有包含根据NLP任务对它们进行分类。

本文的其余部分按以下方式组织。 第 2 节讨论各种即时工程技术,第 3 节重点介绍不同的 NLP 任务。 第 3 节的小节讨论了应用于给定 NLP 任务的不同提示策略及其相应的结果。 第 4 节总结了本文。

2 快速工程技术

在本节中,我们将简要讨论不同的提示方法以及它们在发布时如何改善现有性能。 这里需要注意的重要一点是,以下大多数提示策略都已经在两种不同的变体或设置(如果不是更多)中进行了实验。 这些变化包括零样本和少样本。 一些提示技术可能固有地存在于零样本或少样本变异中,并且可能不存在任何其他变异存在的可能性。 在零样本Radford等人(2019)设置中,不涉及训练数据,而是要求大语言模型通过提示指令来执行任务,完全依赖于预习时学到的嵌入知识。训练阶段。 另一方面,在少样本变体 Brown 等人 (2020) 中,提供了很少的训练数据点以及基于任务的提示说明,以便更好地理解任务。 各种即时工程工作的结果表明,少样本变化有助于提高性能,但这是以仔细准备少样本数据点为代价的,因为大语言模型可能会显示出对策划的少样本数据点的无法解释的偏差。

2.1 基本/标准/普通提示

基本提示是指直接向大语言模型抛出查询的方法,而不对其进行任何工程,以提高大语言模型的性能,这是大多数提示策略背后的核心目标。 在不同的研究论文中,基本提示也被称为标准提示或普通提示。

2.2 思想链(CoT)

在这个提示策略Wei等人(2022)中,作者建立了这样的想法:人类如何将一个复杂的问题分解成更小、更容易的子问题,然后再得出复杂问题的最终解决方案。 沿着类似的思路,作​​者研究了大语言模型进行复杂推理的能力如何通过产生一系列思想链或一系列中间推理步骤来本质上增强。 结果显示,基本提示有相当大的改进,数学问题解决任务的 CoT 和基本提示结果之间的最大差异约为 39%,常识推理任务的最大差异约为 26%。 这项工作为瞬发工程领域开辟了新的研究方向。

2.3自洽

自洽Wang等人(2022)提示技术基于这样的直觉:复杂的推理问题可以通过多种方式解决,从而通过不同的推理路径得出正确的答案。 自我一致性使用一种新颖的解码策略,与 CoT 使用的贪婪解码策略不同,它由三个重要步骤组成。 第一步需要使用 CoT 提示大语言模型,第二步从大语言模型的解码器中采样不同的推理路径,最后一步涉及在多个推理路径中选择最一致的答案。 与 CoT 相比,自我一致性在数学问题解决任务上平均获得 11% 的增益,在常识推理任务上获得 3% 的增益,在多跳推理任务上获得 6% 的增益。

2.4集成细化(ER)

这种提示方法在Singhal等人(2023)中已有讨论。 它建立在 CoT 和自我一致性之上。 ER 由两个阶段组成。 首先,给定一个少样本CoT提示和一个查询,大语言模型通过调整温度来产生多代。 每一代都包含一个推理和查询的答案。 接下来,大语言模型以原始提示、查询和前一阶段的串联生成为条件,以生成更好的解释和答案。 第二阶段会进行多次,然后对第二阶段生成的答案进行多数投票,就像在自我一致性的情况下选择最终答案一样。 在属于上下文无关问答任务的许多数据集上,ER 被认为比 CoT 和自我一致性表现更好。

2.5 自动思维链(Auto-CoT)

在这项工作Zhang 等人 (2022) 中,作者解决了少样本 CoT 或手动 CoT 面临的问题,即需要管理高质量的训练数据点。 Auto-CoT 包含两个主要步骤。 第一个需要将给定数据集的查询划分为几个集群。 第二个涉及从每个集群中选择一个代表性查询,然后使用零样本 CoT 生成其相应的推理链。 作者声称,在数学问题解决、多跳推理和常识推理任务中,Auto-CoT 的性能优于或匹配少样本 CoT。 这表明可以排除为少样本或手动 CoT 训练数据点的管理步骤。

2.6复杂 CoT

Fu 等人 (2022) 引入了一种新的提示策略,旨在选择复杂的数据点提示而不是简单的数据点提示。 数据点的复杂性在这里由涉及它的推理步骤的数量来定义。 作者假设,如果使用复杂的数据点作为上下文训练示例,大语言模型的推理性能可以提高,因为它们已经包含了更简单的数据点。 除了使用复杂数据点作为训练示例之外,复杂 CoT 的另一个重要方面是,在解码过程中,就像自洽一样,在 N 个采样推理链中,选择前 K 个最复杂链上的多数答案作为最终答案。 本文介绍了另一种基线提示方法,称为随机 CoT。 在随机 CoT 中,数据点是随机采样的,不遵守其复杂性。 Complex CoT 在数学问题解决、常识推理、基于表格的数学问题解决和多跳推理任务的各种数据集上平均准确率提高了 5.3%,准确率提高了高达 18%。

2.7 思路(PoT)

Chen 等人 (2022a) 的作者建立在 CoT 的基础上,但与使用大语言模型来执行推理和计算的 CoT 不同,PoT 生成 Python 程序,从而将计算部分交给 Python 解释器。 这项工作认为,减少大语言模型的责任使其更加准确,尤其是对于数字推理。 在数学问题解决、基于表格的数学问题解决、上下文问答和对话式上下文问答任务中,PoT 比 CoT 平均性能提升约 12%。

2.8从最少到最多

Least-to-Most Zhou 等人 (2022) 提示技术试图解决 CoT 问题,其中 CoT 无法准确解决比提示中所示的示例更难的问题。 它由两个阶段组成。 首先,提示大语言模型将给定问题分解为子问题。 接下来,提示大语言模型按顺序解决子问题。 任何子问题的答案都取决于前一个子问题的答案。 作者表明,在常识推理、基于语言的任务完成、数学问题解决和上下文问答任务上,从最少到最多的提示能够显着优于 CoT 和基本提示方法。

2.9符号链 (CoS)

CoS Hu 等人 (2023) 建立在 CoT 的思想之上。 在传统的 CoT 中,推理步骤的中间链以自然语言表示。 虽然这种方法在许多情况下显示出显着的结果,但它也可能包含不正确或冗余的信息。 这项工作的作者提出了他们的假设,即空间描述很难用自然语言表达,从而导致大语言模型难以理解。 相反,使用单词序列中的符号来表达这些关系可能是大语言模型更好的表示形式。 CoS 将空间问答任务的准确率提高了 60.8%。

2.10 结构化思想链(SCoT)

SCoT Li 等人 (2023b) 背后的直觉是,使用排序、分支和循环等程序结构构建中间推理步骤有助于比自然语言中的中间推理步骤更准确地生成代码,正如我们在传统的 CoT。 作者声称,前一种方法比后一种方法更接近地模仿人类开发人员的思维过程,最终结果也证实了这一点,因为在代码生成任务中,SCoT 比 CoT 的性能高出 13.79%。

2.11 计划与求解 (PS)

Wang等人(2023)讨论并尝试解决CoT的三个缺点,即计算错误、漏步错误和语义误解错误。 PS包含两个部分,第一个部分需要制定一个计划将整个问题划分为更小的子问题,第二个部分需要根据计划执行这些子问题。 PS 的更好版本(称为 PS+)添加了更详细的说明,有助于提高推理步骤的质量。 对于零样本设置中的数学问题解决任务中的几乎所有数据集,PS 提示方法比 CoT 的准确性提高了至少 5%。 同样,对于常识推理任务,它在零样本设置中始终优于 CoT 至少 5%,而对于多跳推理任务,它的准确度得分高出大约 2%。

2.12数学提示器

Imani 等人 (2023) 试图解决 CoT 在数学问题解决任务中的两个关键问题:(1)CoT 解决问题所遵循的步骤缺乏有效性; (2) 大语言模型对其预测的置信度如何。 MathPrompter 提示策略总共包含 4 个步骤。 (I) 给定一个查询,第一步需要为查询生成一个代数表达式,用变量替换数值。 (II) 接下来,大语言模型被提示通过推导代数表达式或编写Python函数来解析地解决查询。 (III)第三,通过为变量分配不同的值来解决步骤(I)中的查询。 (IV) 如果 (III) 中的解经过 N 次迭代都是正确的,则最终将变量替换为原始查询值并计算答案。 如果不是,则重复步骤(II)、(III)和(IV)。 MathPrompter 能够将属于数学问题解决任务的数据集的性能从 78.7% 提高到 92.5%。

2.13 对比CoT/对比自洽

Chia 等人 (2023) 的作者声称对比 CoT 或对比自我一致性是 CoT 或自我一致性的一般增强。 这种提示方法的灵感来自于人类如何从正面和负面的例子中学习。 类似地,在这种提示技巧中,也提供了正面和负面的示范,以增强大语言模型的推理能力。 对于跨多个数据集的数学问题解决任务,对比 CoT 平均能够比传统 CoT 平均提高 10%。 同样,对于跨多个数据集的数学问题解决任务,对比自洽能够比传统自洽性能高出 15% 以上。 对于多跳推理任务,对比 CoT 和对比自我一致性比传统任务都有超过 10% 的增益。

2.14 联邦相同/不同参数自一致性/CoT (Fed-SP/DP-SC/CoT)

这种提示方法在Liu 等人(2023)中提出,其核心思想是利用同义众包查询来提高大语言模型的推理能力。 这种提示方法有两种略有不同的变体。 第一个是 Fed-SP-SC,其中众包查询是原始查询的释义版本,但具有相同的参数。 这里的参数可以指数学问题解决任务数据点中的数值。 对于 Fed-SP-SC,首先直接生成答案,然后在其之上应用自我一致性。 另一种是 Fed-DP-CoT。 在Fed-DP-CoT中,大语言模型首先用于生成不同查询的答案,然后通过形成CoT将它们联合起来,为大语言模型提供提示。 这些方法在数学问题解决任务上的结果表明,它们能够比传统 CoT 提高至少 10% 到 20%。

2.15类比推理

该作品Yasunaga 等人 (2023) 的作者从心理学概念“类比推理”中汲取灵感,即人们利用相关的先前经验来解决新问题。 在大语言模型领域,作者首先提示他们生成与原问题相似的例子,然后解决它们,然后继续回答原问题。 结果表明,在数学问题解决、代码生成、逻辑推理和常识推理任务中,与 CoT 相比,类比推理能够实现平均 4% 的准确率提升。

2.16 综合提示

Shao 等人 (2023) 的作者提出了使用大语言模型的综合提示来生成综合示例,这些示例被增强到传统少样本设置中看到的现有手工制作的示例。 这种提示方法包括两个步骤:(1)后退步骤,大语言模型根据自生成的推理链合成查询; (2)前向步骤,大语言模型为综合查询生成推理链,使推理链更加准确。 最后,为了选择最佳示例,本工作使用簇内复杂度,并且在推理过程中使用具有最长推理链的最复杂示例。 结果显示,在使用不同的数学问题解决、常识推理和逻辑推理任务数据集进行实验时,综合提示可实现高达 15.6% 的绝对增益。

2.17 思想树 (ToT)

ToT Yao 等人 (2024) 提示技术的思想是,任何类型的问题解决都需要搜索表示为树的组合空间,其中每个节点代表部分解决方案,每个分支对应于修改它的运算符。 现在,选择哪个分支的决定是由启发式决定的,这些启发式有助于导航问题空间并引导问题解决者找到解决方案。 基于这个想法,作者提出了 ToT,它主动维护一棵思想树,其中每个思想都是一个连贯的语言序列,充当解决问题的中间推理步骤。 该框架允许大语言模型在尝试解决问题时评估思想产生的进展。 ToT 进一步将广度优先或深度优先搜索等搜索技术与模型生成和评估想法的能力结合起来。 ToT 在数学问题解决任务上的成功率比 CoT 高 65%,在不同逻辑推理任务数据集上的成功率高约 40%。 ToT 的一致性得分进一步达到 7.56,而 CoT 在自由响应任务中的平均得分仅为 6.93。

2.18 逻辑思维(LoT)

在这项工作Zhao 等人(2023b)中,作者研究了逻辑等价的用法,以提高大语言模型的零样本推理能力。 LoT除了让大语言模型一步步推理之外,还让大语言模型按照反证法原理提供的指导方针一步步验证, ,如果需要,修改推理链以确保推理有效。 LoT 在数学问题解决任务中超过 CoT 最多 3.7%,常识推理任务最多超过 16.2%,逻辑推理任务最多超过 2.5%,因果推理任务最多超过 15.8%,社会推理任务超过 CoT任务的准确率最高可达 10%。

2.19 Maieutic提示

通过使用深度递归推理来引出对各种假设的溯因解释,Maieutic 提示 Jung 等人 (2022) 鼓励大语言模型通过协作消除相互矛盾的替代方案来产生一致的响应。 Maieutic 提示的生成过程衍生出生成命题的树形结构,其中一个命题为另一个命题的正确性建立了逻辑基础。 最后,为了推断原始查询的答案,测量大语言模型相信每个命题的程度以及命题树中命题之间的逻辑联系。 Maieutic 提示在常识推理任务上的结果表明,与基本提示、CoT、自我一致性和 GKP Liu 等人 (2021) 执行时相比,它能够实现高达 20% 的准确度提升与监督模型竞争。

2.20 验证和编辑 (VE)

Zhao 等人 (2023a) 专注于开发一种技术,可以对 CoT 生成的推理链进行后期编辑,以获得更符合事实的输出。 该方法由三个阶段组成:(1)决定何时编辑阶段,作者使用自洽来找到不确定的输出; (2)如何编辑基本原理阶段,作者通过从外部知识源搜索支持事实来编辑不确定输出的 CoT 推理链;(3)推理阶段,使用前一阶段编辑的基本原理得出最终答案。 VE 在多跳推理任务上的表现比 CoT、自我一致性和基本提示高出 10%,在诚实性任务上比 CoT、自我一致性和基本提示高出 2%。

2.21理性+行动(ReAct)

Yao 等人 (2022b) 提出ReAct,它将推理和行动与大语言模型相结合,解决各种语言推理和决策任务。 为了使模型能够进行动态推理,以建立和修改高层行动计划(行动的理由),ReAct提示大语言模型以交错的方式生成与任务相关的言语推理轨迹和行动。 另一种与 Yao 等人 (2022b) 中讨论的 ReAct 类似的提示方法是 Act,它基本上消除了 ReAct 轨迹中的想法或推理,但在所有讨论的任务中表现都比 ReAct 次优。 对于多跳推理和真实性任务,ReAct 能够比基本提示表现得更好,同时与 CoT 竞争。 当ReAct与CoT或Self-Consistency结合时,能够得到比CoT更好的结果。 对于基于语言的任务完成任务,ReAct 优于强化学习方法,在不同数据集上单独的成功率绝对提高了 10% 以上。

2.22 主动提示

Diao 等人 (2023) 提出 Active-Prompt,通过识别最相关的数据点作为示例,同时以特定的任务示例提示大语言模型,帮助大语言模型适应不同的任务。样本设置少。 主动提示是一种四步技术。 第一步,对训练集中的每个查询提示大语言模型 k 次,以生成 k 个可能的答案及其相应的推理链。 下一步需要根据第一步中生成的答案计算不确定性度量。 第三步,由人类选择并注释前 n 个最不确定的查询。 最后一步,使用新的带注释的示例对测试数据进行少量样本提示。 作者还介绍了 Active-Prompt 的一个不同版本,称为 Random CoT,其中在步骤 3 中,前 n 个查询是随机选择的,而不是基于不确定性度量。 结果表明,对于数学问题解决、常识推理、多跳推理、常识推理任务,在多个数据集上,Active-Prompt 能够比 Self-Consistency、CoT、Auto-CoT 和 Random CoT 获得更好的结果。

2.23 思路(ThoT)

Zhou等人(2023)提出了一种专注于处理长混沌上下文的提示方法。 它基于这样的想法:人们在浏览大量信息时会保留不间断的思维流动,从而能够选择性地提取相关数据并拒绝不相关的数据。 文档各部分之间的注意力平衡对于准确解释和响应所提供的信息非常重要。 ThoT 包含两个步骤。 第一个需要大语言模型来分析和总结上下文的不同部分。 第二步,根据第一步的输出,提示大语言模型回答所提出的查询。 ThoT 在上下文无关问答任务中精确匹配得分约为 0.56,从而优于 CoT 和基本推广技术。 对于对话系统任务,ThoT 能够获得 3.8 的最高平均分,再次超过其他讨论的提示技术。

2.24隐式检索增强生成(Implicit RAG)

与常规 RAG Lewis 等人 (2020) 相反,隐式 RAG Vatsal & Singh (2024); Vatsal 等人 (2024) 要求大语言模型本身从给定的上下文中检索重要的块或部分,然后继续回答所提出的查询。 该技术需要调整两个超参数。 第一个是要提取的部分的数量,第二个是每个部分中的单词数。 隐式 RAG 在患者病例报告数据集上的 Vatsal 等人 (2024) 的上下文问答任务中实现了 SoTA 结果,而在 瓦萨尔和辛格 (2024)

2.25系统2注意力(S2A)

当呈现不相关的上下文时,大语言模型常常会做出错误的判断。 Weston & Sukhbaatar (2023) 尝试通过两步提示策略来解决这个问题。 第一步指示大语言模型重新生成给定的上下文,以便重新生成的版本不包含任何可能对输出产生不利影响的不相关部分。 然后,第二步指示大语言模型使用步骤 1 中重新生成的上下文生成最终响应。 结果表明,S2A 在不同的 Truthality 任务数据集上能够优于 Basic、CoT 以及指令提示 Shi 等人 (2023)

2.26 指示提示

指令提示Shi等人(2023)再次围绕与S2A相同的想法,试图解决大语言模型被不相关的上下文分散注意力的问题。 它仅包含一个步骤,即明确指示语言模型忽略问题描述中的不相关信息。 指导提示能够在诚实性任务中达到 88.2 的归一化微观准确度,并且能够超越所有同类提示,包括 CoT、最少到最多、程序提示和自我一致性。 这里的程序提示Chowdhery等人(2023)策略尝试通过为其编写Python程序来解决问题。 随后,通过使用外部Python解释器运行Python代码来验证编写的程序的正确性,以获得最终答案。

2.27验证链(CoVe)

大语言模型很容易产生事实上不正确的信息,称为幻觉。 Dhuliawala 等人 (2023) 的作者尝试通过 CoVe 解决幻觉问题并提高表现。 Cove 执行四个核心步骤。 首先,大语言模型为给定的查询生成基线响应。 其次,使用原始查询和第一步中的基线响应,生成验证查询列表,这些查询能够检查基线响应中是否存在任何错误。 第三,生成第三步中所有验证查询的答案。 第四,纠正第三步后检测到的基线响应中的所有错误,并生成修订后的响应。 结果表明,在上下文无关问答、上下文问答和自由回答任务上,CoVe 的表现比 CoT 和基本提示至少高出 10% 左右。

2.28知识链(CoK)

与 CoVe 类似,CoK Li 等人 (2023c) 试图解决幻觉问题,以获得更准确的结果。 这是一种三阶段提示技术。 第一阶段是推理准备,给定一个查询,CoK 准备一些基础知识的基本原理和答案,同时确定相关的知识领域。 第二阶段是动态知识适应,如果答案之间没有达成多数共识,CoK 通过适应第一阶段已识别领域的知识来逐步纠正基本原理。 第三阶段是答案巩固,它使用第二阶段修正后的基本原理作为最终答案巩固的更好基础。 CoVe 在上下文无关问答、基于表格的问答、多跳推理和真实性任务中超越了 CoT、自我一致性、VE 和基本提示,并显示出至少 3%、3%、1% 和分别为1%。

2.29 代码链 (CoC)

在这项工作Li 等人(2023a)中,作者提出了一种扩展,以使大语言模型的面向代码的推理更好。 在这里,大语言模型不仅为程序编写代码,而且还通过产生解释器无法实际执行的某些代码行的预期输出来选择性地模拟解释器。 主要思想是激励大语言模型将程序中的语义子任务格式化为灵活的伪代码,这些伪代码可以被显式捕获并传递给大语言模型以在运行时进行仿真,作者将其称为 LMulator。 实验表明,CoC 在各种任务上都超越了 CoT 和其他基线,包括推荐系统、因果推理、常识推理、空间问答、情感/情感理解、机器翻译、逻辑推理、基于表格的数学问题解决和数学问题解决。

2.30 程序辅助语言模型 (PAL)

Gao等人(2023)提出了一种提示策略,使用大语言模型来读取自然语言问题并生成交错的自然语言和编程语言语句作为推理步骤。 最后,使用Python解释器执行编程语句来得到答案。 结果表明,在数学问题解决、基于表格的数学问题解决、常识推理和逻辑推理等多个 NLP 任务中,PAL 轻松地比 CoT 和 Basic 提示等同类产品表现得更好。

2.31活页夹

作者声称 Binder Cheng 等人 (2022) 是一种无需训练的神经符号技术,可将输入映射到程序,该程序 (I) 能够将大语言模型功能的单个 API 绑定到Python 或 SQL 等编程语言,以增加其语法覆盖范围并解决更广泛的查询; (二)采用大语言模型作为底层模型以及执行时的程序解析器; (III) 只需要一些上下文示例注释。 Binder 管道有两个阶段。 首先,在解析阶段,大语言模型将输入映射到给定查询和知识源的程序。 其次,在执行阶段,大语言模型以所选编程语言返回值,最后使用解释器运行程序。 与之前需要对基于表的真实性和基于表的问答任务进行显式训练或微调的方法相比,Binder 能够获得更高的准确性。

2.32日期

Ye 等人 (2023) 探索了利用大语言模型进行少样本学习的想法,以分解证据和查询,从而实现高效的基于表格的推理。 这种激励策略涉及三个重要步骤。 它首先根据查询将一个巨大的表分解为相关的较小的子表。 接下来,使用 SQL 编程语言将复杂的自然语言查询分解为逻辑和数值计算。 最后,使用前两个步骤中的子表和子查询在少量样本设置中得出最终答案。 结果表明,在基于表的真实性任务中,Dater 能够超越之前需要显式微调的方法至少 2%。 同样,对于基于表格的问答任务,它能够比此类方法至少优于 1%。 对于上述两项任务,Date 也能够比 Binder 做得更好。

2.33 表链

Wang等人(2024)中,作者以著名的CoT提示技术为基础,并将其引入表格设置。 这种多步骤的表格提示方法可以使表格理解更加准确。 Chain-of-Table 是一种三步提示技术。 第一步指示大语言模型通过上下文学习动态规划下一个表操作。 这里的操作可以是从添加列到对行排序的任何操作。 第二步生成所选表操作的参数。 前两个步骤有助于转换表并创建各种中间表表示,以回答原始查询。 在最后一步中,前两个步骤中的最后一个表表示用于最终回答查询。 Chain-of-Table 在基于表的问答和基于表的真实性任务上实现了 SoTA 性能。 对于基于表的问答任务,与之前的 SoTA 结果相比,它获得了大约 3% 的平均更好性能,而对于基于表的真实性任务,它能够获得大约 1.5% 的平均更好性能。

2.34 分解提示(DecomP)

Khot 等人 (2022) 提出了 DecomP 技术,将复杂问题分解为更简单的子问题,然后将这些子问题委托给子问题特定的大语言模型,这些模型有自己的提示和分解器来进一步分解子问题。 分解者可以采用层次分解、递归分解或调用外部API来解决子问题。 在常识推理任务的精确匹配方面,DecomP 比 CoT 和 Least-to-Most 平均高出 25%。 对于多跳推理任务,DecomP 在四个不同的数据集上能够轻松地比 CoT 做得更好。

2.35 三跳推理 (THOR)

Fei 等人 (2023) 的作者提出了 THOR 来模仿人类的推理过程来完成情感/情感理解任务。 THOR 包括三个步骤。 第一步,要求大语言模型识别给定查询中提到的方面。 接下来,根据上一步的输出和原始查询,要求大语言模型详细回答查询中嵌入的基本观点。 最后,结合上述所有信息,并要求大语言模型推断与给定查询相关的情感极性。 THOR 能够在多个情感/情感理解任务数据集上显着超越之前的 SoTA 监督模型和零样本模型。

2.36 元认知提示(MP)

MPWang&Zhao(2023)基于元认知的概念,该概念源自认知心理学,涉及个体对其认知过程的意识和自我反思。 它由五个阶段组成。 1) 理解输入文本,2) 做出初级知识判断,3) 批判性地评估该初级知识分析,4) 做出最终决定并解释推理,5) 评估整个过程的置信度。 结果表明,MP 在众多 NLP 任务中始终优于 CoT 和 PS,包括释义、自然语言推理、上下文问答、词义消歧、命名实体识别、关系提取和多标签文本分类。

2.37 事件链 (CoE)

Bao 等人 (2024) 提出了 Summarization 任务的 CoE。 CoE 有四个连续的步骤。 第一个重点关注特定事件提取。 接下来,对第一步中提取的事件进行分析并概括为更简洁和精炼的形式。 第三,过滤上一步中概括的事件,仅选择覆盖大部分文本的事件。 在最后一步中,第三步中选择的事件根据其重要性的时间顺序进行整合。 结果表明,在两个汇总数据集上,CoE 在 rouge 分数方面比 CoT 表现更好,同时也更简洁。

2.38 基本的术语定义

这是Vatsal等人(2024)中讨论的提示方法之一。 在这种方法中,通过添加医学术语定义来增强基本的提示指令,这是基于这样的假设:添加这些定义将有助于大语言模型在回答所提出的查询时获得更多上下文。 但结果表明,这些术语定义可能并没有真正的帮助,因为它们的知识范围狭窄,可能与大语言模型更大的知识库相冲突。

2.39 基础+标注指南提示+错误分析提示

胡等人(2024)测试大语言模型在临床命名实体识别任务中的能力。 这种激励策略具有三个不同的组成部分。 基本组件告诉大语言模型有关任务的基本信息以及大语言模型应该以什么格式输出结果。 标注指南组件包含源自标注指南的实体定义和语言规则。 错误分析组件在使用数据对训练大语言模型输出进行错误分析后合并了附加指令。 作者还通过创建上述组件的不同组合来尝试这种提示方法的不同版本。 该提示方法能够在属于命名实体识别任务的多个数据集上获得平均 0.57 的精确匹配 F1 分数。

3不同 NLP 任务的快速工程

在对 NLP 任务下的数据集进行分类时,不同的研究论文使用了不同的衡量标准,并且每一项工作的结果都不尽相同。 在本节中,我们尝试标准化这一点,并通过定义不同的 NLP 任务并将不同的数据集放在这些任务下,围绕这些先前的分类方式建立一个结构。 我们进一步讨论用于这些任务的各种提示方法。 反映这一点的分类图如图1所示。 这里需要注意的重要一点是,一个数据集很可能同时属于不同的 NLP 任务。 但这可能会导致对提示技术如何在各种 NLP 任务中执行的结构化分析产生复杂的纠缠。 因此,在我们的工作中,我们确保数据集仅属于与其最密切关联的一个 NLP 任务。 以下小节分别定义了不同的 NLP 任务、相应的数据集以及应用于这些数据集的各种提示策略。 它们进一步包含每个数据集的潜在 SoTA 提示技术。 提示方法的性能因所使用的大语言模型而异。 因此,我们还提供了一个大语言模型列表,这些模型与给定数据集上的提示策略一起使用。 对于SoTA,我们只提到了提示方法的名称,因为在很多情况下,特定的大语言模型没有用给定的提示方法进行过实验,因此不清楚它是否可以达到SoTA的性能。 因此,如果大语言模型列表中存在任何大语言模型,

for tree= grow=east, draw, rounded corners, align=center, text width=4cm, inner xsep=4pt, inner ysep=2pt, l sep=5mm, s sep=1mm, parent anchor=east, child anchor=west, anchor=west, calign=first, edge path= [draw, edge] (!u.parent anchor) - +(3mm,0) -- (.child anchor)edge label; , font=, if level=0 fill=red!20、text width=2cm, inner xsep=6pt, inner ysep=4pt, align=center, text centered , if level=1 text width=3.3cm, inner xsep=5pt, inner ysep=3pt, align=center, text centered , if level=2 text width=7.7cm, inner xsep=4pt, inner ysep=2pt, align=center, text centered [NLP Tasks [Table-Based Truthfulness, fill=orange![ Basic, CoT, Binder, Dater, Chain-of-Table [Wang et al. (2024),

Cheng et al. (2022), Ye et al. (2023)] , fill=ange!, fill=orange!]][真实性,fill=蓝色!20 [ S2A,CoT,指令提示,基本,行为,再行为,自我一致性,

VE,CoK,从少到多 [Weston & Sukhbaatar (2023)

Shi et al. (2023)] , fill=blue!]][Free Response, fill=yellow!20 [ Basic, CoT, Self-Consistency, ToT, CoVe [Yao et al. (2024),

Dhuliawala et al. (2023)] , fill=yellow!]][代码生成,fill=青色!20 [ 类比推理,CoT,基础,SCoT [Yasunaga et al. (2023),

Li et al. (2023b)] , fill=cyan!]][对话系统,fill=紫色!20 [ Basic, CoT, ThoT [Zhou et al. (2023)] , fill=purple!]][Conversational Contextual

Question-Answering, fill=orange!20 [PoT, CoT, Self-Consistency, PAL [Chen et al. (2022a)], fill=orange!]][空间问题解答,fill=粉色!20 [CoT, CoS, Basic, CoC [Hu et al. (2023), Li et al. (2023a)], fill=pink!]][自由上下文

Question-Answering, fill=green![Basic, CoT, ThoT, CoVe, Self-Consistency, VE, CoK,

ER [Wang et al. (2022), Zhou et al. (2023), Dhuliawala et al.(2023),

Li 等人 (2023a), Nori 等人 (2023), Singhal 等人 (2023),

Liévin 等人 (2024)], fill=green!]][语境

问题解答,fill=橙色!20[Basic, Implicit RAG, CoT, Analogical Reasoning, CoVe, PoT,

自洽性,Basic with Term Definitions, Least-to-Most, PS,

MP [Vatsal & Singh (2024), Dhuliawala et al.(2023), Chen et al. (2022a),

Vatsal et al. (2024), Zhou et al. (2022), Wang & Zhao (2023)], fill=orange!20]][社会推理, fill=blue!20 [CoT, LoT [Zhao et al. (2023b)], fill=blue!]][因果推理,fill=黄色!20 [CoT, LoT, Basic, CoC [Zhao et al. (2023b), Li et al. (2023a)], fill=yellow!]][多跳推理,fill=青色!20[Basic、CoT、Auto-CoT、Self-Consistency、Contrastive CoT、

Contrastive Self-Consistency、Random-CoT、Active-Prompt、

Complex CoT、Act、ReAct、VE、CoK、Least-to-Most、DecomP、

PS、[Wei et al.(2022)Zhang et al.(2022)Wang et al.(2022),

Yao et al. (2022b), Li et al. (2023c), Chia et al. (2023),

Diao et al.(2023), Fu et al. (2022), Khot et al. (2022),

Wang et al. (2023), Zhao et al. (2023a) ], fill=cyan!]][常识推理,fill=紫色!20[CoT、DecomP、Basic、Self-Consistency、GKP、

Maieutic Prompting、CoC、LoT、Auto-CoT、PS、Random CoT、

Active-Prompt、Least-to-Most、PAL、Complex CoT、PoT、

Analogical Reasoning、Synthetic Prompting [Yasunaga et al.(2023),

Wei et al. (2022), Zhang et al. (2022), Wang et al.(2022),

Zhao et al. (2023b), Li et al. (2023a), Gao et al. (2023),

Diao et al. (2023), Shao et al.(2023), Jung et al. (2022),

Zhou et al. (2022), Fu et al. (2022), Khot et al. (2022),

Wang et al. (2023)], fill=purple!]][逻辑推理, fill=pink![Basic, CoT, PAL, Synthetic Prompting, CoC, LoT, ToT,

Analogical Reasoning [Yasunaga et al. (2023), Yao et al.(2024),

Zhao et al. (2023b), Li et al. (2023a), Gao et al. (2023),

Shao et al. (2023)], fill=pink!]][数学问题解决,fill=绿色!20[CoT、随机 CoT、复杂 CoT、基本、PAL、

合成提示、对比 CoT、

对比自洽、CoC、自动 CoT、自洽、

Active-Prompt, PS, PoT, MathPrompter, ToT, LoT,

Fed-SP-SC, Fed-DP-CoT, Analogical Reasoning,

Least-to-Most [Yasunaga et al.(2023), Wei et al. (2022),

Zhang et al. (2022), Wang et al. (2022), Yao et al.(2024),

Zhao et al. (2023b), Chen et al. (2022a), Li et al. (2023a),

Gao et al. (2023), Liu et al. (2023), Chia et al.(2023),

Diao et al. (2023), Shao et al. (2023), Zhou et al.(2022),

Imani et al. (2023), Fu et al. (2022), Wang et al. (2023)], fill=green!]]]

for tree= grow=east, draw, rounded corners, align=center, text width=4cm, inner xsep=4pt, inner ysep=2pt, l sep=5mm, s sep=1mm, parent anchor=east, child anchor=west, anchor=west, calign=first, edge path= [draw, edge] (!u.parent anchor) – +(3mm,0) —- (.child anchor)edge label; , font=, if level=0 fill=red!20, text width=2cm, inner xsep=6pt, inner ysep=4pt, align=center, text centered , if level=1 text width=3.3cm, inner xsep=5pt, inner ysep=3pt, align=center, text centered , if level=2 text width=7.7cm, inner xsep=4pt, inner ysep=2pt, align=center, text centered [NLP Tasks [Multilabel Text Classification, fill=orange!20 [ CoT, PS, Self-Consistency, MP [Wang & Zhao (2023)] , fill=orange!20] ] [Language-Based Task
Completion, fill=blue!20 [ Basic, CoT, Act, ReAct, Least-to-Most [Wei et al. (2022),
Yao et al. (2022b), Zhou et al. (2022)] , fill=blue!20] ] [Relation Extraction, fill=yellow!20 [ CoT, PS, Self-Consistency, MP [Wang & Zhao (2023)] , fill=yellow!20] ] [Natural Language Inference, fill=cyan!20 [ CoT, PS, Self-Consistency, MP [Wang & Zhao (2023)] , fill=cyan!20] ] [Stance Detection, fill=purple!20 [ Basic, CoT [Zhang et al. (2023b)] , fill=purple!20] ] [Paraphrasing, fill=pink!20 [ CoT, PS, Self-Consistency, MP [Wang & Zhao (2023)] , fill=pink!20] ] [Summarization, fill=green!20 [ CoE, Basic [Bao et al. (2024)] , fill=green!20] ] [Word Sense Disambiguation, fill=orange!20 [ CoT, PS, Self-Consistency, MP [Wang & Zhao (2023)] , fill=orange!20] ] [Named Entity Recognition, fill=blue!20 [ Basic, Basic + Annotation Guideline-Based Prompting,
Basic + Annotation Guideline-Based Prompting +
Error Analysis-Based Prompting, CoT, PS, Self-Consistency,
MP [Hu et al. (2024), Tang et al. (2024), Wang & Zhao (2023)] , fill=blue!20] ] [Machine Translation, fill=yellow!20 [ Basic, CoT, CoC, Basic + Variations [Li et al. (2023a),
Zhang et al. (2023a)] , fill=yellow!20] ] [Emotion/Sentiment
Understanding, fill=cyan!20 [ Basic, CoT, CoC, THOR, Basic + Variations [Li et al. (2023a),
Fei et al. (2023), Fatouros et al. (2023)] , fill=cyan!20] ] [Recommender System, fill=purple!20 [ Basic, CoT, CoC [Li et al. (2023a)] , fill=purple!20] ] [Table-Based Mathematical
Problem Solving, fill=pink!20 [ PoT, CoT, Self-Consistency, PAL, Basic, CoC, Random CoT,
Complex CoT [Chen et al. (2022a), Li et al. (2023a), Gao et al. (2023),
Fu et al. (2022)] , fill=pink!20] ] [Table-Based
Question-Answering, fill=green!20 [ Basic, CoT, Binder, Dater, Chain-of-Table, Self-Consistency, VE,
CoK [Wang et al. (2024), Li et al. (2023c),Cheng et al. (2022),
Ye et al. (2023)] , fill=green!20] ] ]

图1: 不同 NLP 任务的即时工程方法的分类图

一种提示策略,已用于对给定数据集进行实验并取得了最佳性能,我们将其指定为 SoTA,无论该技术使用的具体大语言模型如何。 另一点需要强调的是,在许多作品中,作者尝试了同一数据集的不同版本,这使得很难对应用于它们的不同提示技术进行绝对比较。 根据我们的理解,我们考虑了所有上述因素,并在为每个数据集选择 SoTA 时使用了我们的最佳判断。

3.1数学问题解决

此任务衡量模型在非表格设置中执行任何类型数学计算的能力。 我们在阅读此任务的不同提示方法时遇到的不同数据集是 GSM8K Cobbe 等人 (2021)、MATH Hendrycks 等人 (2021)、SVAMP Patel 等人 (2021)、ASDiv Miao 等人 (2021)、AQuA Ling 等人 (2017)、MAWPS Koncel-Kedziorski等人 (2016)、MultiArith Koncel-Kedziorski 等人 (2016)、AddSub Koncel-Kedziorski 等人 (2016)、SingleEq Koncel- Kedziorski 等人 (2016)、Game of 24 Yao 等人 (2024)、多步算术 Srivastava 等人 (2022)0>、GSM-HARD Gao 等人 (2023)1>、SingleOp Koncel-Kedziorski 等人 (2016)2> 和 MathQA Amini 等人 (2019)3>。 LABEL:tab:mps 列出了上述数据集和已在其上进行实验的不同提示方法以及性能最佳的提示策略。

3.2 逻辑推理

逻辑推理任务检查模型的自然语言理解能力,以遵循一组带有输入的命令并解决给定的问题。 我们在阅读此任务的不同提示策略时涵盖的不同数据集是词排序 Srivastava 等人 (2022)、时间序列 Srivastava 等人 (2022)、形式谬论Srivastava 等人(2022)、迷你填字游戏姚等人(2024)、对象计数Srivastava 等人(2022)、逻辑演绎Srivastava 等人 (2022)、布尔表达式 Srivastava 等人 (2022)、跟踪随机对象 Srivastava 等人 (2022)、谎言之网 Srivastava 等人 (2022)、Dyck Languages Srivastava 等人 (2022)、几何形状 Srivastava 等人 (2022)0>、重复复制逻辑 Srivastava 等人 (2022)1>。 LABEL:tab:ticalr 包含上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示方法。

表格1: 数学问题解决任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
GSM8K Basic, Analogical Reasoning, CoT, Auto-CoT, Self-Consistency, LoT, PoT, PAL, CoC, Contrastive CoT, Contrastive Self-Consistency, Least-to-Most, Synthetic Prompting, Random CoT, Complex CoT, Active-Prompt, Fed-SP-SC, Fed-DP-CoT, PS GPT-3.5-Turbo, GPT-4, PaLM 2-L, GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, PaLM 2-S, GPT-3.5 (Text-Davinci-003), Minerva-540B, InstructGPT (Text-Davinci-003), DiVeRSe, UL2-20B PoT
MATH Analogical Reasoning, CoT GPT-3.5-Turbo, GPT-4, PaLM 2-L Analogical Reasoning
SVAMP Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, Random CoT, Active-Prompt, Synthetic Prompting, Contrastive CoT, Contrastive Self-Consistency, Fed-SP-SC, Fed-DP-CoT, PS GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), InstructGPT (Text-Davinci-003) PoT
ASDiv Basic, CoT, Self-Consistency, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting, Auto-CoT, Random CoT, Active-Prompt GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003), GPT-3.5 (Text-Davinci-003) Contrastive Self-Consistency
AQuA Basic, CoT, Auto-CoT, Self-Consistency, LoT, PoT, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, PS GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001), GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, GPT-3.5 (Text-Davinci-003) PoT
MAWPS Basic, CoT GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002) CoT
Game of 24 Basic, CoT, Self-Consistency, ToT GPT-4 ToT
MultiArith Basic, CoT, Auto-CoT, Self-Consistency, PoT, PAL, MathPrompter, Random CoT, Complex CoT, PS GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA, Minerva-540B, GPT-3.5 (Text-Davinci-003), DiVeRSe Self-Consistency
Multi-Step Arithmetic Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
AddSub Basic, CoT, Auto-CoT, Self-Consistency, PAL, PoT, PS GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003) Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B PAL
SingleEq Basic, CoT, Auto-CoT, PAL, Self-Consistency, Random CoT, Active-Prompt, PS, PoT GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5 (Text-Davinci-003) Active-Prompt
GSM-HARD Basic, CoT, PAL, Contrastive CoT, Contrastive Self-Consistency, Synthetic Prompting Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3.5-Turbo, InstructGPT (Text-Davinci-003) Synthetic Prompting
SingleOp Basic, CoT, PAL, Synthetic Prompting Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), GPT-3 (Text-Davinci-002) Synthetic Prompting
MathQA CoT, Random CoT, Complex CoT LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), DiVeRSe Complex CoT
表2: 逻辑推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
Word Sorting Basic, Analogical Reasoning, CoT, CoC GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) CoC
Logical Deduction Basic, Analogical Reasoning, CoT, CoC GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) CoC
Temporal Sequences Basic, Analogical Reasoning, CoT, CoC GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) CoC
Formal Fallacies Basic, Analogical Reasoning, CoT, CoC GPT-3.5-Turbo, GPT-4, PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003) Analogical Reasoning
Mini Crosswords Basic, CoT, ToT GPT-4 ToT
Tracking Shuffled Objects Basic, CoT, LoT, CoC GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B, PaLM 2-S, GPT-3.5 (Text-Davinci-003) CoT, LoT, CoC
Object Counting Basic, CoT, CoC, PAL PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B CoC
Boolean Expressions Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Web of Lies Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoT
Dyck Languages Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Geometric Shapes Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Repeat Copy Logic Basic, CoT, PAL, Synthetic Prompting Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003) PAL

3.3常识推理

与逻辑推理任务相反,常识推理任务衡量模型根据常见实践知识(通常被人类称为常识)做出任何判断的能力。 它不涉及解决问题以获得答案。 相反,它更多的是一种固有的常识。 我们在调查此任务的不同提示方法时发现的各种数据集包括 Reasoning about Colored Objects Srivastava 等人 (2022)、CSQA Talmor 等人 (2018)、Date Understanding Srivastava 等人 (2022)、运动理解 Srivastava 等人 (2022)、最后一个字母连接 Wei 等人 (2022)、抛硬币 Wei 等人 (2022)、Odd One Out Srivastava 等人 (2022)、消歧 QA Srivastava 等人 (2022)、Hyperbaton Srivastava 等人 (2022)、Com2Sense Singh 等人 (2021)、CSQA 2.0 Talmor 等人 (2022)0>、Creak Onoe 等人 ( 2021)1> 和 List Reversal Khot 等人 (2022)2>。 LABEL:tab:commonr 显示了上述数据集和已在其上进行实验的不同提示策略以及最佳执行提示方法。

表3: 常识推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
Reasoning about Colored Objects Analogical Reasoning, CoT, Basic, CoC, PAL, Synthetic Prompting PaLM 2-L, PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, InstructGPT (Text-Davinci-003), Codex (Code-Davinci-002) Synthetic Prompting
CSQA Basic, CoT, Auto-CoT, Self-Consistency, Random CoT, Active-Prompt, PoT, PS Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B Active-Prompt
Last Letter Concatenation Basic, CoT, Auto-CoT, Self-Consistency, LoT, Random CoT, Active-Prompt, Least-to-Most, DecomP, PS Codex (Code-Davinci-001), Codex (Code-Davinci-002), GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, InstructGPT (Text-Davinci-001), InstructGPT (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B DecomP
CSQA 2.0 Basic, CoT, Self-Consistency, GKP, Maieutic Prompting InstructGPT (Text-Davinci-001) Maieutic Prompting
Date Understanding Basic, CoT, LoT, CoC, PAL, Complex CoT Codex (Code-Davinci-002), DiVeRSe’, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, LaMDA-137B, Minerva-540B, PaLM 2-S, PaLM-540B, UL2-20B, Vicuna-13B, Vicuna-33B, Vicuna-7B Complex CoT
Sports Understanding Basic, CoT, CoC GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoT
Coin Flip Basic, CoT, Auto-CoT, Self-Consistency, PS GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), GPT-3, Codex (Code-Davinci-001) Auto-CoT
Odd One Out CoT, LoT GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B LoT
Disambigu-ation QA Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Hyperbaton Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Com2Sense Basic, CoT, Self-Consistency, GKP, Maieutic Prompting InstructGPT (Text-Davinci-001) Maieutic Prompting
Creak Basic, CoT, Self-Consistency, GKP, Maieutic Prompting InstructGPT (Text-Davinci-001) Maieutic Prompting
List Reversal CoT, DecomP InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) DecomP

3.4多跳推理

多跳推理任务评估模型在连接来自上下文不同部分的证据以回答给定查询方面的能力。 我们在阅读此任务的不同提示策略时涵盖的不同数据集是 StrategyQA Geva 等人 (2021)、HotpotQA Yang 等人 (2018)、Bamboogle Press 等人 (2022)、CommaQA-E Khot 等人 (2021)、MuSiQue Trivedi 等人 (2022)、2WikiMultihopQA 和 Ho等人(2020) LABEL:tab:mhr 列出了上述数据集和已在其上进行实验的不同提示方法以及效果最佳的提示策略。

3.5因果推理

因果推理任务检查模型处理因果关系的能力。 我们在阅读此任务的不同提示技术时遇到了两个数据集,即因果 Srivastava 等人 (2022) 和因果判断 Srivastava 等人 (2022) LABEL:tab:causalr 显示了上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示方法。

表 4: 多跳推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
StrategyQA Basic, CoT, Auto-CoT, Self-Consistency, Contrastive CoT, Contrastive Self-Consistency, Random CoT, Active-Prompt, Complex CoT, PS GPT-3, GPT-3 (Text-Davinci-002), GPT-3.5 (Text-Davinci-003), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002), Codex (Code-Davinci-001), GPT-3.5-Turbo, Minerva-540B, DiVeRSe Active-Prompt
HotpotQA Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK, DecomP, Least-to-Most PaLM-540B, GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) CoK
CommaQA-E CoT, DecomP InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) DecomP
MuSiQue Basic, CoT, DecomP InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) DecomP
2WikiMult-ihopQA Basic, CoT, DecomP InstructGPT (Text-Davinci-002), InstructGPT (Text-Davinci-001), Codex (Code-Davinci-002) DecomP
表 5: 因果推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
Cause And Effect CoT, LoT GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B LoT
Causal Judgement Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 Basic, CoT

3.6社会推理

该任务测试模型推理人类社交互动的能力。 我们在调查此任务的不同提示技术时只发现了一个数据集,即 SocialQA Srivastava 等人 (2022) LABEL:tab:socialr 包含上述数据集和已在其上进行实验的不同提示方法以及效果最佳的提示策略。

3.7上下文问答

此任务衡量模型仅依靠给定上下文回答查询的能力。 我们在阅读此任务的不同提示方法时涵盖的不同数据集是 ProcessBank Berant 等人 (2014)、BioMRC Pappas 等人 (2020)、MASH-QA Zhu 等人 (2020)、CliCR Šuster & Daelemans (2018)、MultiSpanQA Li 等人 (2022)、FinQA Chen 等人 (2021b)、TAT-QA Zhu 等人 (2021)、患者病例报告 Vatsal & Singh (2024)、Drop Dua 等人(2019) 和 BoolQ Clark 等人 (2019) LABEL:tab:cqa 列出了上述数据集和已在其上进行过实验的不同提示方法以及性能最佳的提示技术。

表 6: 社会推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
SocialQA CoT, LoT GPT-3.5-Turbo, GPT-4, Vicuna-7B, Vicuna-13B, Vicuna-33B LoT
表 7: 上下文问答任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
ProcessBank Basic, Implicit RAG, CoT, Analogical Reasoning GPT-4 Implicit RAG
BioMRC Basic, Implicit RAG, CoT, Analogical Reasoning GPT-4 Basic
MASH-QA Basic, Implicit RAG, CoT, Analogical Reasoning GPT-4 Basic
CliCR Basic, Implicit RAG, CoT, Analogical Reasoning GPT-4 Implicit RAG, Analogical Reasoning
MultiSpanQA Basic, CoT, CoVe LLaMA-65B, LLaMA-2-70B Chat CoVe
FinQA PoT, CoT, Self-Consistency Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA PoT
TAT-QA PoT, CoT, Self-Consistency Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi and Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA PoT
Patient Case Reports Implicit RAG, CoT, Analogical Reasoning, Basic, Basic with Term Definitions GPT-4 Implicit RAG
Drop Basic, CoT, Least-to-Most GPT-3 (Text-Davinci-002), Codex (Code-Davinci-002), Codex (Code-Davinci-001) Least-to-Most
BoolQ CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

3.8上下文无关问答

与上下文问答任务相比,上下文无关问答任务依赖于模型的嵌入式知识库或任何开源知识库(例如维基百科)来回答查询,而不是仅使用提供的上下文。 我们在调查此任务的不同提示技术时发现的各种数据集包括 PopQA Mallen 等人 (2022)、EntityQ Sciavolino 等人 (2021)、Wikidata Dhuliawala等人 (2023)、Wiki 分类列表 Dhuliawala 等人 (2023)、MedMCQA Pal 等人 (2022)、MMLU 物理 Hendrycks 等人 (2020)、MMLU Biology Hendrycks 等人 (2020)、USMLE 模拟考试 Nori 等人 (2023)、USMLE 自我评估 Nori 等人 (2023), MedQA Jin 等人 (2021), PubMedQA Jin 等人 (2019)0>, MMLU Hendrycks 等人 (2020)1> 和 AI2 推理挑战赛 Clark 等人 (2018)2>。 LABEL:tab:cfqa列出了上述数据集和已在其上进行过实验的不同提示策略以及性能最佳的提示策略。

表8: 上下文无关问答任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
PopQA Basic, CoT, ThoT GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B ThoT
EntityQ Basic, CoT, ThoT GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B ThoT
Wikidata Basic, CoT, CoVe LLaMA-65B, LLaMA-2-70B Chat CoVe
Wiki-Catoegory List Basic, CoT, CoVe LLaMA-65B, LLaMA-2-70B Chat CoVe
MedMCQA Basic, CoT, Self-Consistency, VE, CoK, ER GPT-3.5-Turbo, GPT-4, GPT-3.5, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B Basic
MedQA Basic, CoT, Self-Consistency, ER GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B Basic
MMLU Physics Basic, CoT, Self-Consistency, VE, CoK GPT-3.5-Turbo CoK
MMLU Biology Basic, CoT, Self-Consistency, VE, CoK GPT-3.5-Turbo CoK
USMLE Sample Exam Basic GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM Basic
USMLE Self Assessments Basic GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM Basic
AI2 Reasoning Challenge CoT, Self-Consistency GPT-3, LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-001), Codex (Code-Davinci-002) Self-Consistency
PubMedQA Basic, CoT, Self-Consistency, ER GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Med-PaLM 2, Flan-PaLM, GPT-4-Base, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B Basic
MMLU Basic, CoT, Self-Consistency, ER Med-PaLM 2, Flan-PaLM, GPT-4-Base, GPT-4, GPT-3.5, GPT-3.5-Turbo, InstructGPT (Text-Davinci-002), Flan-PaLM 540B, Med-PaLM, Codex (Code-Davinci-002), LLaMA-2-70B, LLaMA-2-7B, LLaMA-2-13B, LLaMA-2-70B Chat, LLaMA-2-7B Chat, LLaMA-2-13B Chat, GPT-4, GPT-NeoX, MPT-Instruct-7B, MPT-Instruct-30B, Falcon-Instruct-7B, Falcon-Instruct-40B, Guanaco-33B, Guanaco-65B, Vicuna-1.3-7B, Vicuna-1.3-13B, Vicuna-1.3-33B, Vicuna-1.5-7B, Vicuna-1.5-13B, U-PaLM-540B, Flan-U-PaLM-540B, Med-PaLM V2-540B Basic

3.9空间问答

空间问答任务衡量模型处理空间推理的能力,空间推理是基于空间对象、关系和转换的心理表征构建的认知过程。 我们在阅读此任务的不同提示技术时遇到的各种数据集包括 Brick World Hu 等人 (2023)、基于 NLVR 的操作 Hu 等人 (2023)、自然语言导航 Hu 等人 (2023)、Spartun Mirzaee & Kordjamshidi (2022) 和 Navigate Srivastava 等人 (2022) LABEL:tab:sqa包含上述数据集和已在其上进行实验的不同提示方法以及最佳执行提示策略。

3.10 对话式上下文问答

在此任务中,根据模型对给定文本摘录的理解以及它如何能够回答以对话格式出现的一系列相互关联的查询来评估模型。 这里需要注意的一个关键问题是每个查询可能取决于先前查询的答案。 我们在阅读此任务的不同提示方法时仅覆盖了一个数据集,其中包括 ConvFinQA Chen 等人 (2022b) LABEL:tab:ccqa 显示了上述数据集和已在其上进行实验的不同提示方法以及效果最佳的提示策略。

表 9: 空间问答任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
Brick World CoT, CoS GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoS
NLVR-Based Manipulation CoT, CoS GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoS
Natural Language Navigation CoT, CoS GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoS
Spartun CoT, CoS GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoS
Navigate Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoT
表 10: 对话式上下文问答任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
ConvFinQA PoT, CoT, Self-Consistency, PAL Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA PoT

3.11对话系统

对话系统任务检查模型在用户对机器对话设置中执行语言生成或回答给定已生成对话的查询的能力。 当对话式上下文问答中的文本提取变成对话时,这两个任务之间可能会有很强的重叠,但根据我们调查期间遇到的数据集和提示技术,我们决定将这两个任务保留为单独的任务。 我们在调查该任务的不同提示方法时只发现了一个数据集,其中包括多轮对话响应(MTCR)Zhou 等人(2023) LABEL:tab:dias 列出了上述数据集和已在其上进行过实验的不同提示策略以及性能最佳的提示技术。

3.12代码生成

此任务涉及模型的输入或最终输出是编程语言代码的所有情况。 我们在阅读此任务的不同提示策略时遇到的不同数据集是 Codeforce Scraping Yasunaga 等人 (2023)、HumanEval Chen 等人 (2021a)、MBPP Austin 等人 (2021) 和 MBCPP Athiwaratkun 等人 (2022) LABEL:tab:codeg 包含上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示策略。

表 11: 对话系统任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
MTCR Basic, CoT, ThoT GPT-4, GPT-3.5-Turbo, LLaMA-2-7B-Chat, LLaMA-2-13B-Chat, LLaMA-2-70B-Chat, Vicuna-7B, Vicuna-13B, Vicuna-33B ThoT
表 12: 代码生成任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
Codeforce Scraping Analogical Reasoning, CoT GPT-3.5-Turbo, GPT-4, PaLM 2-L Analogical Reasoning
HumanEval Basic, SCoT, CoT Codex (Code-Davinci-002), GPT-3.5-Turbo SCoT
MBPP Basic, SCoT, CoT Codex (Code-Davinci-002), GPT-3.5-Turbo SCoT
MBCPP Basic, SCoT, CoT Codex (Code-Davinci-002), GPT-3.5-Turbo SCoT

3.13免费回复

该任务评估模型生成无约束文本响应的能力。 我们在阅读此任务的不同提示方法时涵盖的各种数据集包括创意写作 Yao 等人 (2024) 和长篇传记生成 Min 等人 (2023) LABEL:tab:freer列出了上述数据集以及已在其上试验过的不同提示策略以及最佳技术。

表 13: 免费响应任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
Creative Writing Basic, CoT, Self-Consistency, ToT GPT-4 ToT
Longform Generation of Biographies Basic, CoT, CoVe LLaMA-65B, LLaMA-2-70B Chat CoVe

3.14真实性

该任务评估模型进行事实交流且不传播任何类型的错误信息的能力。 这项任务并不代表模型理解给定上下文的能力,而是更关注模型是否根据他们的理解做出错误的陈述。 我们在调查此任务的不同提示策略时发现的各种数据集是 SycophancyEval,https://github.com/meg-tong/sycophancy-eval 111https://github.com/meg-tong/sycophancy-eval,GSM-IC 石等人 (2023) 和 Fever Thorne 等人 (2018) LABEL:tab:truth 显示了上述数据集和已在其上进行过实验的不同提示技术以及性能最佳的提示技术。

表 14: 实时工程分析以实现真实性任务
Dataset Prompting Strategies LLM(s) SoTA
Sycophancy-Eval S2A, CoT, Instructed Prompting LLaMA-2-70B-Chat S2A
Longform Generation S2A, CoT, Instructed Prompting LLaMA-2-70B-Chat S2A
Fever Basic, CoT, Act, ReAct, Self-Consistency, VE, CoK PaLM-540B, GPT-3.5 (Text-Davinci-002), GPT-3.5-Turbo, InstructGPT (Text-Davinci-003) ReAct
GSM-IC CoT, Least-to-Most, Instructed Prompting, Self-Consistency, S2A Codex (Code-Davinci-002), GPT-3.5 ( Text-Davinci-003), LLaMA-2-70B-Chat Least-to-Most

3.15 基于表的真实性

该任务是“真实性”任务的扩展,衡量模型进行事实交流的能力,并且不会在表格设置中传播任何类型的错误信息。 我们在阅读此任务的不同提示方法时遇到的唯一数据集是 TabFact Chen 等人 (2019) LABEL:tab:tbtruth 包含上述数据集和已在其上进行实验的不同提示策略以及性能最佳的提示策略。

表 15: 基于表的真实性任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
TabFact Basic, CoT, Binder, Dater, Chain-of-Table PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat Chain-of-Table

3.16表格问答

此任务涉及表格设置中的任何类型的问答。 它可以被视为其他类型基于表格的任务的超集,例如基于表格的真实性或基于表格的数学问题解决。 但在这项工作中,为了避免任何混淆,我们捕获了该任务下的所有数据集,这些数据集不属于更具体的基于表格的任务,例如基于表格的真实性或基于表格的数学问题解决。 在阅读此任务的不同提示策略时,我们只遇到了两个数据集:FeTaQA Nan 等人 (2022) 和 WikiTQPasupat & Liang (2015) LABEL:tab:tbqa 显示了上述数据集和已在其上进行过实验的不同提示方法以及效果最佳的提示策略。

3.17基于表格的数学问题解决

该任务是数学问题解决任务的扩展,衡量模型在表格设置中执行任何类型数学计算的能力。 我们在阅读此任务的不同提示技术时涵盖的不同数据集包括 TabMWP Lu 等人 (2022) 和 Penguins in a Table Srivastava 等人 (2022) LABEL:tab:tbmps列出了上述数据集和已在其上进行实验的不同提示方法以及最佳执行提示策略。

3.18推荐系统

此任务衡量模型处理给定输入的能力,并从可能的项目列表中建议一组最相关的项目作为输出。 我们在调查此任务的不同提示技术时只发现了一个数据集,即电影推荐 Srivastava 等人 (2022) LABEL:tab:rec 列出了上述数据集和已在其上进行实验的不同提示方法以及性能最佳的提示技术。

表 16: 基于表格的问答任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
WikiTQ Basic, CoT, Binder, Dater, Chain-of-Table PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, Codex (Code-Davinci-002) Chain-of-Table
FeTaQA Basic, CoT, Dater, Chain-of-Table, Self-Consistency, VE, CoK PaLM 2-S, GPT-3.5-Turbo, LLaMA-2-17B-Chat, GPT-3.5-Turbo, Codex (Code-Davinci-002) Chain-of-Table
表 17: 基于表格的数学问题解决任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
TabMWP PoT, CoT, Self-Consistency, PAL Codex (Code-Davinci-002), GPT-3 (Text-Davinci-002), GPT-3.5-Turbo, CodeGen (Codegen-16B-Multi), CodeGen (Codegen-16B-Mono), CodeT5+, Xgen, PaLM, LaMDA PoT
Penguins in a Table Basic, CoT, CoC, PAL, Random CoT, Complex CoT PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002), UL2-20B, LaMDA-137B, PaLM-540B, Minerva-540B, GPT-3 (Text-Davinci-002), DiVeRSe PAL
表 18: 推荐系统任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
Movie Recommendation Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4, Codex (Code-Davinci-002) Basic

3.19 情绪/情感理解

此任务检查模型在理解人类情感或情绪方面的能力。 我们在阅读此任务的不同提示方法时遇到的各种数据集包括 Ruin Names Srivastava 等人 (2022)、SemEval14 Laptop 和 Restaurant Pontiki 等人 (2016) 和外汇 Faturos 等人 (2023) LABEL:tab:emotion 包含上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示策略。

3.20机器翻译

在此任务中,测试模型在两种语言之间翻译的能力。 我们在阅读此任务的不同提示技术时遇到的不同数据集包括显着翻译错误检测 Srivastava 等人 (2022)、FLORES Costa-jussà 等人 (2022)、WMT21 Farhad 等人 (2021)、多域 Aharoni & Goldberg (2020) 和 PDC Sun 等人 (2020) LABEL:tab:mtrans 列出了上述数据集和已在其上进行实验的不同提示方法以及性能最佳的提示策略。

表 19: 情绪/情绪理解任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
Snarks Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 CoC
Ruin Names Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 Basic
SemEval14 Laptop and Restaurant THOR, CoT Flan-T5-250M (Base), Flan-T5-780M (Large), Flan-T5-3B (XL), Flan-T5-11B (XXL), GPT3-350M, GPT3-1.3B, GPT3-6.7B, GPT3-175B, GPT-3.5-Turbo THOR
Forex Basic, Basic + Variations GPT-3.5-Turbo Basic + Variations
表 20: 机器翻译任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
Salient Translation Error Detection Basic, CoT, CoC PaLM 2-S, GPT-3.5 (Text-Davinci-003), GPT-3.5-Turbo, GPT-4 Basic
FLORES Basic, Basic + Variations GLM-130B Basic + Variations
WMT21 Basic, Basic + Variations GLM-130B Basic + Variations
Multi-Domain Basic, Basic + Variations GLM-130B Basic + Variations
PDC Basic, Basic + Variations GLM-130B Basic + Variations

3.21 命名实体识别

命名实体识别任务旨在识别给定输入文本中预定义的对象类或类别。 我们在调查此任务的不同提示技术时发现的不同数据集是 MTSamples Uzuner 等人 (2011)、VAERS Du 等人 (2021)、研究论文 唐等人 (2024) 和 BC5CDR-chem 李等人 (2016) LABEL:tab:ner 显示了上述数据集和已在其上进行过实验的不同提示策略以及性能最佳的提示策略。

表 21: 命名实体识别任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
MTSamples Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting GPT-3.5-Turbo, GPT-4 Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
VAERS Basic, Basic + Annotation Guideline-based Prompting, Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting GPT-3.5-Turbo, GPT-4 Basic + Annotation Guideline-Based Prompting + Error Analysis-Based Prompting
Research Papers Basic, CoT GPT-3.5-Turbo, GPT-4 Basic
BC5CDR-chem CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

3.22 词义消歧

词义消歧任务检查模型在不同上下文环境中破译单词不同含义的能力。 在阅读此任务的不同提示方法时,我们只遇到了一个数据集,其中包括 WiC Pilehvar & Camacho-Collados (2018) LABEL:tab:wsd 显示了上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示方法。

3.23总结

此任务测试模型将较长的输入文本分解为较小块的能力,同时确保在这些较小块中保留重要信息。 在阅读该任务的不同提示方法时,我们只覆盖了一个数据集,即 CCTC Bao 等人 (2024) LABEL:tab:summa 包含上述数据集和已在其上进行实验的不同提示技术以及最佳执行提示策略。

表 22: 词义消歧任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
WiC CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP
表 23: 总结任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
WCEP Basic, CoE ChatGLM2-6B CoE
CCTC Basic, CoE ChatGLM2-6B CoE

3.24释义

释义任务旨在使用不同的单词重写给定的输入文本,同时保持原始输入文本的真实语义相同。 摘要任务和释义任务之间的一个主要区别在于,摘要任务的主要目标是相对于输入文本缩短输出文本的长度,而释义任务只专注于在重写过程中使用不同的单词。 我们在调查此任务的不同提示方法时只发现了一个数据集,其中包括 QQP 222https://quoradata.quora.com/First-Quora-Dataset-Release-Question-Pairs LABEL:tab:parap 列出了上述数据集和已在其上进行过实验的不同提示方法以及性能最佳的提示技术。

表 24: 释义任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
QQP CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

3.25姿态检测

此任务评估模型根据文本确定文本作者是否赞成或反对某个主题、目标或评估对象的能力。 我们在阅读此任务的不同提示技术时遇到的不同数据集是 SemEval-2016 Mohammad 等人 (2016)、VAST Allaway & McKeown (2020) 和P-立场Li等人(2021) LABEL:tab:stanced 显示了上述数据集和已在其上进行过实验的不同提示方法以及性能最佳的提示技术。

表 25: 立场检测任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
SemEval-2016 CoT GPT-3.5-Turbo CoT
VAST CoT GPT-3.5-Turbo CoT
P-Stance CoT GPT-3.5-Turbo CoT

3.26 自然语言推理

此任务的主要目标是在给定前提的情况下确定假设是否为真(蕴涵)、假(矛盾)或未确定(中性)。 我们在阅读此任务的不同提示方法时涵盖的不同数据集是 QNLI Rajpurkar 等人 (2016) 和 MedNLI Romanov & Shivade (2018) LABEL:tab:nli包含上述数据集和已在其上进行实验的不同提示策略以及最佳执行提示方法。

表 26: 自然语言推理任务的即时工程分析
Dataset Prompting Strategies LLM(s) SoTA
QNLI CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP
MedNLI CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

3.27 关系抽取

关系提取评估模型识别对象或命名实体的预定义类或类别之间语义关系的能力。 在阅读这项任务的不同提示技术时,我们只遇到了一个数据集,其中包括 DDI Segura-Bedmar 等人 (2013) LABEL:tab:re 显示了上述数据集和已在其上进行过实验的不同提示方法以及性能最佳的提示策略。

表 27: 关系提取任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
DDI CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

3.28 基于语言的任务完成

此任务的主要目标是检查模型在遵循一系列基于语言的导航命令来做出完成任务所需的操作的决策方面有多好。我们在调查此任务的不同提示策略时发现的不同数据集是ALFWorld Shridhar 等人 (2020)、WebShop Yao 等人 (2022a)、SayCan Ahn 等人 (2022) 和 Scan Lake &巴罗尼(2018) LABEL:tab:langbased列出了上述数据集和已在其上进行实验的不同提示方法以及性能最佳的提示方法。

表 28: 基于语言的任务完成任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
ALFWorld Act, ReAct PaLM-540B, GPT-3 (Text-Davinci-002) ReAct
Scan Basic, CoT, Least-to-Most GPT-3 (Text-Davinci-002), Codex (Code-Davinci-001), Codex (Code-Davinci-001) Least-to-Most
WebShop Act, ReAct PaLM-540B, GPT-3 (Text-Davinci-002) ReAct
SayCan Basic, CoT GPT-3 (Text-Davinci-002), LaMDA-137B, PaLM-540B, UL2-20B, Codex (Code-Davinci-002) CoT

3.29 多标签文本分类

此任务衡量模型将每个输入分配给一组预定义目标标签的能力。 该任务可以封装许多上述任务,例如姿态检测、命名实体识别等,但为了更好地调查提示方法,为了使这些任务定义尽可能不相交,我们仅在此任务下包含那些数据集无法根据上述任何任务进行适当分类。 我们在阅读此任务的不同提示策略时涵盖的不同数据集包括 EUR-LEX Chalkidis 等人 (2021)、UNFAIR-ToS Lippi 等人 (2019)和 LEDGAR Tuggener 等人 (2020) LABEL:tab:mlc包含上述数据集和已在其上进行实验的不同提示策略以及最佳执行提示方法。

表 29: 多标签文本分类任务的快速工程分析
Dataset Prompting Strategies LLM(s) SoTA
EUR-LEX CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP
UNFAIR-ToS CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP
LEDGAR CoT, PS, Self-Consistency, MP Llama-2-13B-Chat, GPT-3.5-Turbo, GPT-4, PaLM-Bison-Chat MP

4结论

在当今的大语言模型领域,快速工程已成为不可或缺的一部分。 通过各种措施,对充分发挥大语言模型的潜力发挥着至关重要的作用。 在这项工作中,我们对 44 篇研究论文进行了深入调查,讨论了 29 种不同 NLP 任务的 39 种提示策略。 我们通过分类图形象地展示了这一点。 我们尝试将不同数据集的分类标准化为 29 个 NLP 任务,并讨论最近的提示技术对它们的整体效果,同时还列出了每个数据集潜在的 SoTA 提示方法。

参考

  • Aharoni & Goldberg (2020) Roee Aharoni and Yoav Goldberg. Unsupervised domain clusters in pretrained language models. arXiv preprint arXiv:2004.02105, 2020.
  • Ahn et al. (2022) Michael Ahn, Anthony Brohan, Noah Brown, Yevgen Chebotar, Omar Cortes, Byron David, Chelsea Finn, Chuyuan Fu, Keerthana Gopalakrishnan, Karol Hausman, et al. Do as i can, not as i say: Grounding language in robotic affordances. arXiv preprint arXiv:2204.01691, 2022.
  • Allaway & McKeown (2020) Emily Allaway and Kathleen McKeown. Zero-shot stance detection: A dataset and model using generalized topic representations. arXiv preprint arXiv:2010.03640, 2020.
  • Amini et al. (2019) Aida Amini, Saadia Gabriel, Peter Lin, Rik Koncel-Kedziorski, Yejin Choi, and Hannaneh Hajishirzi. Mathqa: Towards interpretable math word problem solving with operation-based formalisms. arXiv preprint arXiv:1905.13319, 2019.
  • Athiwaratkun et al. (2022) Ben Athiwaratkun, Sanjay Krishna Gouda, Zijian Wang, Xiaopeng Li, Yuchen Tian, Ming Tan, Wasi Uddin Ahmad, Shiqi Wang, Qing Sun, Mingyue Shang, et al. Multi-lingual evaluation of code generation models. arXiv preprint arXiv:2210.14868, 2022.
  • Austin et al. (2021) Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, et al. Program synthesis with large language models. arXiv preprint arXiv:2108.07732, 2021.
  • Bao et al. (2024) Songlin Bao, Tiantian Li, and Bin Cao. Chain-of-event prompting for multi-document summarization by large language models. International Journal of Web Information Systems, (ahead-of-print), 2024.
  • Berant et al. (2014) Jonathan Berant, Vivek Srikumar, Pei-Chun Chen, Abby Vander Linden, Brittany Harding, Brad Huang, Peter Clark, and Christopher D Manning. Modeling biological processes for reading comprehension. In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pp. 1499–1510, 2014.
  • Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
  • Chalkidis et al. (2021) Ilias Chalkidis, Manos Fergadiotis, and Ion Androutsopoulos. Multieurlex–a multi-lingual and multi-label legal document classification dataset for zero-shot cross-lingual transfer. arXiv preprint arXiv:2109.00904, 2021.
  • Chang et al. (2023) Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, et al. A survey on evaluation of large language models. arXiv preprint arXiv:2307.03109, 2023.
  • Chen et al. (2023) Banghao Chen, Zhaofeng Zhang, Nicolas Langrené, and Shengxin Zhu. Unleashing the potential of prompt engineering in large language models: a comprehensive review. arXiv preprint arXiv:2310.14735, 2023.
  • Chen et al. (2021a) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374, 2021a.
  • Chen et al. (2019) Wenhu Chen, Hongmin Wang, Jianshu Chen, Yunkai Zhang, Hong Wang, Shiyang Li, Xiyou Zhou, and William Yang Wang. Tabfact: A large-scale dataset for table-based fact verification. arXiv preprint arXiv:1909.02164, 2019.
  • Chen et al. (2022a) Wenhu Chen, Xueguang Ma, Xinyi Wang, and William W Cohen. Program of thoughts prompting: Disentangling computation from reasoning for numerical reasoning tasks. arXiv preprint arXiv:2211.12588, 2022a.
  • Chen et al. (2021b) Zhiyu Chen, Wenhu Chen, Charese Smiley, Sameena Shah, Iana Borova, Dylan Langdon, Reema Moussa, Matt Beane, Ting-Hao Huang, Bryan Routledge, et al. Finqa: A dataset of numerical reasoning over financial data. arXiv preprint arXiv:2109.00122, 2021b.
  • Chen et al. (2022b) Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah, and William Yang Wang. Convfinqa: Exploring the chain of numerical reasoning in conversational finance question answering. arXiv preprint arXiv:2210.03849, 2022b.
  • Cheng et al. (2022) Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, et al. Binding language models in symbolic languages. arXiv preprint arXiv:2210.02875, 2022.
  • Chia et al. (2023) Yew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, and Lidong Bing. Contrastive chain-of-thought prompting. arXiv preprint arXiv:2311.09277, 2023.
  • Chowdhery et al. (2023) Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, et al. Palm: Scaling language modeling with pathways. Journal of Machine Learning Research, 24(240):1–113, 2023.
  • Clark et al. (2019) Christopher Clark, Kenton Lee, Ming-Wei Chang, Tom Kwiatkowski, Michael Collins, and Kristina Toutanova. Boolq: Exploring the surprising difficulty of natural yes/no questions. arXiv preprint arXiv:1905.10044, 2019.
  • Clark et al. (2018) Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have solved question answering? try arc, the ai2 reasoning challenge. arXiv preprint arXiv:1803.05457, 2018.
  • Cobbe et al. (2021) Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Costa-jussà et al. (2022) Marta R Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, et al. No language left behind: Scaling human-centered machine translation. arXiv preprint arXiv:2207.04672, 2022.
  • Dhuliawala et al. (2023) Shehzaad Dhuliawala, Mojtaba Komeili, Jing Xu, Roberta Raileanu, Xian Li, Asli Celikyilmaz, and Jason Weston. Chain-of-verification reduces hallucination in large language models. arXiv preprint arXiv:2309.11495, 2023.
  • Diao et al. (2023) Shizhe Diao, Pengcheng Wang, Yong Lin, and Tong Zhang. Active prompting with chain-of-thought for large language models. arXiv preprint arXiv:2302.12246, 2023.
  • Du et al. (2021) Jingcheng Du, Yang Xiang, Madhuri Sankaranarayanapillai, Meng Zhang, Jingqi Wang, Yuqi Si, Huy Anh Pham, Hua Xu, Yong Chen, and Cui Tao. Extracting postmarketing adverse events from safety reports in the vaccine adverse event reporting system (vaers) using deep learning. Journal of the American Medical Informatics Association, 28(7):1393–1400, 2021.
  • Dua et al. (2019) Dheeru Dua, Yizhong Wang, Pradeep Dasigi, Gabriel Stanovsky, Sameer Singh, and Matt Gardner. Drop: A reading comprehension benchmark requiring discrete reasoning over paragraphs. arXiv preprint arXiv:1903.00161, 2019.
  • Edemacu & Wu (2024) Kennedy Edemacu and Xintao Wu. Privacy preserving prompt engineering: A survey. arXiv preprint arXiv:2404.06001, 2024.
  • Farhad et al. (2021) Akhbardeh Farhad, Arkhangorodsky Arkady, Biesialska Magdalena, Bojar Ondřej, Chatterjee Rajen, Chaudhary Vishrav, Marta R Costa-jussa, España-Bonet Cristina, Fan Angela, Federmann Christian, et al. Findings of the 2021 conference on machine translation (wmt21). In Proceedings of the Sixth Conference on Machine Translation, pp. 1–88. Association for Computational Linguistics, 2021.
  • Fatouros et al. (2023) Georgios Fatouros, John Soldatos, Kalliopi Kouroumali, Georgios Makridis, and Dimosthenis Kyriazis. Transforming sentiment analysis in the financial domain with chatgpt. Machine Learning with Applications, 14:100508, 2023.
  • Fei et al. (2023) Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, and Tat-Seng Chua. Reasoning implicit sentiment with chain-of-thought prompting. arXiv preprint arXiv:2305.11255, 2023.
  • Fu et al. (2022) Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark, and Tushar Khot. Complexity-based prompting for multi-step reasoning. In The Eleventh International Conference on Learning Representations, 2022.
  • Gao et al. (2023) Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, and Graham Neubig. Pal: Program-aided language models. In International Conference on Machine Learning, pp. 10764–10799. PMLR, 2023.
  • Geva et al. (2021) Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, and Jonathan Berant. Did aristotle use a laptop? a question answering benchmark with implicit reasoning strategies. Transactions of the Association for Computational Linguistics, 9:346–361, 2021.
  • Hendrycks et al. (2020) Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
  • Hendrycks et al. (2021) Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874, 2021.
  • Ho et al. (2020) Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara, and Akiko Aizawa. Constructing a multi-hop qa dataset for comprehensive evaluation of reasoning steps. arXiv preprint arXiv:2011.01060, 2020.
  • Hu et al. (2023) Hanxu Hu, Hongyuan Lu, Huajian Zhang, Yun-Ze Song, Wai Lam, and Yue Zhang. Chain-of-symbol prompting elicits planning in large langauge models. arXiv preprint arXiv:2305.10276, 2023.
  • Hu et al. (2024) Yan Hu, Qingyu Chen, Jingcheng Du, Xueqing Peng, Vipina Kuttichi Keloth, Xu Zuo, Yujia Zhou, Zehan Li, Xiaoqian Jiang, Zhiyong Lu, et al. Improving large language models for clinical named entity recognition via prompt engineering. Journal of the American Medical Informatics Association, pp. ocad259, 2024.
  • Imani et al. (2023) Shima Imani, Liang Du, and Harsh Shrivastava. Mathprompter: Mathematical reasoning using large language models. arXiv preprint arXiv:2303.05398, 2023.
  • Jin et al. (2021) Di Jin, Eileen Pan, Nassim Oufattole, Wei-Hung Weng, Hanyi Fang, and Peter Szolovits. What disease does this patient have? a large-scale open domain question answering dataset from medical exams. Applied Sciences, 11(14):6421, 2021.
  • Jin et al. (2019) Qiao Jin, Bhuwan Dhingra, Zhengping Liu, William W Cohen, and Xinghua Lu. Pubmedqa: A dataset for biomedical research question answering. arXiv preprint arXiv:1909.06146, 2019.
  • Jung et al. (2022) Jaehun Jung, Lianhui Qin, Sean Welleck, Faeze Brahman, Chandra Bhagavatula, Ronan Le Bras, and Yejin Choi. Maieutic prompting: Logically consistent reasoning with recursive explanations. arXiv preprint arXiv:2205.11822, 2022.
  • Khot et al. (2021) Tushar Khot, Kyle Richardson, Daniel Khashabi, and Ashish Sabharwal. Hey ai, can you solve complex tasks by talking to agents? arXiv preprint arXiv:2110.08542, 2021.
  • Khot et al. (2022) Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, and Ashish Sabharwal. Decomposed prompting: A modular approach for solving complex tasks. arXiv preprint arXiv:2210.02406, 2022.
  • Koncel-Kedziorski et al. (2016) Rik Koncel-Kedziorski, Subhro Roy, Aida Amini, Nate Kushman, and Hannaneh Hajishirzi. Mawps: A math word problem repository. In Proceedings of the 2016 conference of the north american chapter of the association for computational linguistics: human language technologies, pp. 1152–1157, 2016.
  • Lake & Baroni (2018) Brenden Lake and Marco Baroni. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. In International conference on machine learning, pp. 2873–2882. PMLR, 2018.
  • Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
  • Li et al. (2023a) Chengshu Li, Jacky Liang, Andy Zeng, Xinyun Chen, Karol Hausman, Dorsa Sadigh, Sergey Levine, Li Fei-Fei, Fei Xia, and Brian Ichter. Chain of code: Reasoning with a language model-augmented code emulator. arXiv preprint arXiv:2312.04474, 2023a.
  • Li et al. (2022) Haonan Li, Martin Tomko, Maria Vasardani, and Timothy Baldwin. Multispanqa: A dataset for multi-span question answering. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 1250–1260, 2022.
  • Li et al. (2023b) Jia Li, Ge Li, Yongmin Li, and Zhi Jin. Structured chain-of-thought prompting for code generation. arXiv preprint arXiv:2305.06599, 2023b.
  • Li et al. (2016) Jiao Li, Yueping Sun, Robin J Johnson, Daniela Sciaky, Chih-Hsuan Wei, Robert Leaman, Allan Peter Davis, Carolyn J Mattingly, Thomas C Wiegers, and Zhiyong Lu. Biocreative v cdr task corpus: a resource for chemical disease relation extraction. Database, 2016, 2016.
  • Li et al. (2023c) Xingxuan Li, Ruochen Zhao, Yew Ken Chia, Bosheng Ding, Shafiq Joty, Soujanya Poria, and Lidong Bing. Chain-of-knowledge: Grounding large language models via dynamic knowledge adapting over heterogeneous sources. In The Twelfth International Conference on Learning Representations, 2023c.
  • Li et al. (2021) Yingjie Li, Tiberiu Sosea, Aditya Sawant, Ajith Jayaraman Nair, Diana Inkpen, and Cornelia Caragea. P-stance: A large dataset for stance detection in political domain. In Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021, pp. 2355–2365, 2021.
  • Liévin et al. (2024) Valentin Liévin, Christoffer Egeberg Hother, Andreas Geert Motzfeldt, and Ole Winther. Can large language models reason about medical questions? Patterns, 5(3), 2024.
  • Ling et al. (2017) Wang Ling, Dani Yogatama, Chris Dyer, and Phil Blunsom. Program induction by rationale generation: Learning to solve and explain algebraic word problems. arXiv preprint arXiv:1705.04146, 2017.
  • Lippi et al. (2019) Marco Lippi, Przemysław Pałka, Giuseppe Contissa, Francesca Lagioia, Hans-Wolfgang Micklitz, Giovanni Sartor, and Paolo Torroni. Claudette: an automated detector of potentially unfair clauses in online terms of service. Artificial Intelligence and Law, 27:117–139, 2019.
  • Liu et al. (2021) Jiacheng Liu, Alisa Liu, Ximing Lu, Sean Welleck, Peter West, Ronan Le Bras, Yejin Choi, and Hannaneh Hajishirzi. Generated knowledge prompting for commonsense reasoning. arXiv preprint arXiv:2110.08387, 2021.
  • Liu et al. (2023) Xiangyang Liu, Tianqi Pang, and Chenyou Fan. Federated prompting and chain-of-thought reasoning for improving llms answering. In International Conference on Knowledge Science, Engineering and Management, pp. 3–11. Springer, 2023.
  • Lu et al. (2022) Pan Lu, Liang Qiu, Kai-Wei Chang, Ying Nian Wu, Song-Chun Zhu, Tanmay Rajpurohit, Peter Clark, and Ashwin Kalyan. Dynamic prompt learning via policy gradient for semi-structured mathematical reasoning. arXiv preprint arXiv:2209.14610, 2022.
  • Mallen et al. (2022) Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, and Hannaneh Hajishirzi. When not to trust language models: Investigating effectiveness of parametric and non-parametric memories. arXiv preprint arXiv:2212.10511, 2022.
  • Miao et al. (2021) Shen-Yun Miao, Chao-Chun Liang, and Keh-Yih Su. A diverse corpus for evaluating and developing english math word problem solvers. arXiv preprint arXiv:2106.15772, 2021.
  • Min et al. (2023) Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Wei Koh, Mohit Iyyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. Factscore: Fine-grained atomic evaluation of factual precision in long form text generation. arXiv preprint arXiv:2305.14251, 2023.
  • Mirzaee & Kordjamshidi (2022) Roshanak Mirzaee and Parisa Kordjamshidi. Transfer learning with synthetic corpora for spatial role labeling and reasoning. arXiv preprint arXiv:2210.16952, 2022.
  • Mohammad et al. (2016) Saif Mohammad, Svetlana Kiritchenko, Parinaz Sobhani, Xiaodan Zhu, and Colin Cherry. Semeval-2016 task 6: Detecting stance in tweets. In Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016), pp. 31–41, 2016.
  • Nan et al. (2022) Linyong Nan, Chiachun Hsieh, Ziming Mao, Xi Victoria Lin, Neha Verma, Rui Zhang, Wojciech Kryściński, Hailey Schoelkopf, Riley Kong, Xiangru Tang, et al. Fetaqa: Free-form table question answering. Transactions of the Association for Computational Linguistics, 10:35–49, 2022.
  • Nori et al. (2023) Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, and Eric Horvitz. Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375, 2023.
  • Onoe et al. (2021) Yasumasa Onoe, Michael JQ Zhang, Eunsol Choi, and Greg Durrett. Creak: A dataset for commonsense reasoning over entity knowledge. arXiv preprint arXiv:2109.01653, 2021.
  • Pal et al. (2022) Ankit Pal, Logesh Kumar Umapathi, and Malaikannan Sankarasubbu. Medmcqa: A large-scale multi-subject multi-choice dataset for medical domain question answering. In Conference on health, inference, and learning, pp. 248–260. PMLR, 2022.
  • Pappas et al. (2020) Dimitris Pappas, Petros Stavropoulos, Ion Androutsopoulos, and Ryan McDonald. Biomrc: A dataset for biomedical machine reading comprehension. In Proceedings of the 19th SIGBioMed workshop on biomedical language processing, pp. 140–149, 2020.
  • Pasupat & Liang (2015) Panupong Pasupat and Percy Liang. Compositional semantic parsing on semi-structured tables. arXiv preprint arXiv:1508.00305, 2015.
  • Patel et al. (2021) Arkil Patel, Satwik Bhattamishra, and Navin Goyal. Are nlp models really able to solve simple math word problems? arXiv preprint arXiv:2103.07191, 2021.
  • Pilehvar & Camacho-Collados (2018) Mohammad Taher Pilehvar and Jose Camacho-Collados. Wic: the word-in-context dataset for evaluating context-sensitive meaning representations. arXiv preprint arXiv:1808.09121, 2018.
  • Pontiki et al. (2016) Maria Pontiki, Dimitris Galanis, Haris Papageorgiou, Ion Androutsopoulos, Suresh Manandhar, Mohammed Al-Smadi, Mahmoud Al-Ayyoub, Yanyan Zhao, Bing Qin, Orphée De Clercq, et al. Semeval-2016 task 5: Aspect based sentiment analysis. In ProWorkshop on Semantic Evaluation (SemEval-2016), pp. 19–30. Association for Computational Linguistics, 2016.
  • Press et al. (2022) Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A Smith, and Mike Lewis. Measuring and narrowing the compositionality gap in language models. arXiv preprint arXiv:2210.03350, 2022.
  • Radford et al. (2019) Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.
  • Rajpurkar et al. (2016) Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for machine comprehension of text. arXiv preprint arXiv:1606.05250, 2016.
  • Romanov & Shivade (2018) Alexey Romanov and Chaitanya Shivade. Lessons from natural language inference in the clinical domain. arXiv preprint arXiv:1808.06752, 2018.
  • Sahoo et al. (2024) Pranab Sahoo, Ayush Kumar Singh, Sriparna Saha, Vinija Jain, Samrat Mondal, and Aman Chadha. A systematic survey of prompt engineering in large language models: Techniques and applications. arXiv preprint arXiv:2402.07927, 2024.
  • Sciavolino et al. (2021) Christopher Sciavolino, Zexuan Zhong, Jinhyuk Lee, and Danqi Chen. Simple entity-centric questions challenge dense retrievers. arXiv preprint arXiv:2109.08535, 2021.
  • Segura-Bedmar et al. (2013) Isabel Segura-Bedmar, Paloma Martínez, and María Herrero-Zazo. Semeval-2013 task 9: Extraction of drug-drug interactions from biomedical texts (ddiextraction 2013). In Second Joint Conference on Lexical and Computational Semantics (* SEM), Volume 2: Proceedings of the Seventh International Workshop on Semantic Evaluation (SemEval 2013), pp. 341–350, 2013.
  • Shao et al. (2023) Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, and Weizhu Chen. Synthetic prompting: Generating chain-of-thought demonstrations for large language models. In International Conference on Machine Learning, pp. 30706–30775. PMLR, 2023.
  • Shi et al. (2023) Freda Shi, Xinyun Chen, Kanishka Misra, Nathan Scales, David Dohan, Ed H Chi, Nathanael Schärli, and Denny Zhou. Large language models can be easily distracted by irrelevant context. In International Conference on Machine Learning, pp. 31210–31227. PMLR, 2023.
  • Shridhar et al. (2020) Mohit Shridhar, Xingdi Yuan, Marc-Alexandre Côté, Yonatan Bisk, Adam Trischler, and Matthew Hausknecht. Alfworld: Aligning text and embodied environments for interactive learning. arXiv preprint arXiv:2010.03768, 2020.
  • Singh et al. (2021) Shikhar Singh, Nuan Wen, Yu Hou, Pegah Alipoormolabashi, Te-Lin Wu, Xuezhe Ma, and Nanyun Peng. Com2sense: A commonsense reasoning benchmark with complementary sentences. arXiv preprint arXiv:2106.00969, 2021.
  • Singhal et al. (2023) Karan Singhal, Tao Tu, Juraj Gottweis, Rory Sayres, Ellery Wulczyn, Le Hou, Kevin Clark, Stephen Pfohl, Heather Cole-Lewis, Darlene Neal, et al. Towards expert-level medical question answering with large language models. arXiv preprint arXiv:2305.09617, 2023.
  • Srivastava et al. (2022) Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adrià Garriga-Alonso, et al. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615, 2022.
  • Sun et al. (2020) Zewei Sun, Mingxuan Wang, Hao Zhou, Chengqi Zhao, Shujian Huang, Jiajun Chen, and Lei Li. Rethinking document-level neural machine translation. arXiv preprint arXiv:2010.08961, 2020.
  • Šuster & Daelemans (2018) Simon Šuster and Walter Daelemans. Clicr: a dataset of clinical case reports for machine reading comprehension. arXiv preprint arXiv:1803.09720, 2018.
  • Talmor et al. (2018) Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937, 2018.
  • Talmor et al. (2022) Alon Talmor, Ori Yoran, Ronan Le Bras, Chandra Bhagavatula, Yoav Goldberg, Yejin Choi, and Jonathan Berant. Commonsenseqa 2.0: Exposing the limits of ai through gamification. arXiv preprint arXiv:2201.05320, 2022.
  • Tang et al. (2024) Yiyi Tang, Ziyan Xiao, Xue Li, Qingpeng Zhang, Esther WY Chan, Ian CK Wong, and Research Data Collaboration Task Force. Large language model in medical information extraction from titles and abstracts with prompt engineering strategies: A comparative study of gpt-3.5 and gpt-4. medRxiv, pp. 2024–03, 2024.
  • Thorne et al. (2018) James Thorne, Andreas Vlachos, Christos Christodoulopoulos, and Arpit Mittal. Fever: a large-scale dataset for fact extraction and verification. arXiv preprint arXiv:1803.05355, 2018.
  • Trivedi et al. (2022) Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Musique: Multihop questions via single-hop question composition. Transactions of the Association for Computational Linguistics, 10:539–554, 2022.
  • Tuggener et al. (2020) Don Tuggener, Pius Von Däniken, Thomas Peetz, and Mark Cieliebak. Ledgar: A large-scale multi-label corpus for text classification of legal provisions in contracts. In Proceedings of the twelfth language resources and evaluation conference, pp. 1235–1241, 2020.
  • Uzuner et al. (2011) Özlem Uzuner, Brett R South, Shuying Shen, and Scott L DuVall. 2010 i2b2/va challenge on concepts, assertions, and relations in clinical text. Journal of the American Medical Informatics Association, 18(5):552–556, 2011.
  • Vatsal & Singh (2024) Shubham Vatsal and Ayush Singh. Can gpt redefine medical understanding? evaluating gpt on biomedical machine reading comprehension. arXiv preprint arXiv:2405.18682, 2024.
  • Vatsal et al. (2024) Shubham Vatsal, Ayush Singh, and Shabnam Tafreshi. Can gpt improve the state of prior authorization via guideline based automated question answering? arXiv preprint arXiv:2402.18419, 2024.
  • Wang et al. (2023) Lei Wang, Wanyu Xu, Yihuai Lan, Zhiqiang Hu, Yunshi Lan, Roy Ka-Wei Lee, and Ee-Peng Lim. Plan-and-solve prompting: Improving zero-shot chain-of-thought reasoning by large language models. arXiv preprint arXiv:2305.04091, 2023.
  • Wang et al. (2022) Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171, 2022.
  • Wang & Zhao (2023) Yuqing Wang and Yun Zhao. Metacognitive prompting improves understanding in large language models. arXiv preprint arXiv:2308.05342, 2023.
  • Wang et al. (2024) Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, et al. Chain-of-table: Evolving tables in the reasoning chain for table understanding. arXiv preprint arXiv:2401.04398, 2024.
  • Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022.
  • Weston & Sukhbaatar (2023) Jason Weston and Sainbayar Sukhbaatar. System 2 attention (is something you might need too). arXiv preprint arXiv:2311.11829, 2023.
  • Yang et al. (2018) Zhilin Yang, Peng Qi, Saizheng Zhang, Yoshua Bengio, William W Cohen, Ruslan Salakhutdinov, and Christopher D Manning. Hotpotqa: A dataset for diverse, explainable multi-hop question answering. arXiv preprint arXiv:1809.09600, 2018.
  • Yao et al. (2022a) Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. Webshop: Towards scalable real-world web interaction with grounded language agents. Advances in Neural Information Processing Systems, 35:20744–20757, 2022a.
  • Yao et al. (2022b) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629, 2022b.
  • Yao et al. (2024) Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Tom Griffiths, Yuan Cao, and Karthik Narasimhan. Tree of thoughts: Deliberate problem solving with large language models. Advances in Neural Information Processing Systems, 36, 2024.
  • Yasunaga et al. (2023) Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H Chi, and Denny Zhou. Large language models as analogical reasoners. arXiv preprint arXiv:2310.01714, 2023.
  • Ye et al. (2023) Yunhu Ye, Binyuan Hui, Min Yang, Binhua Li, Fei Huang, and Yongbin Li. Large language models are versatile decomposers: Decompose evidence and questions for table-based reasoning. arXiv preprint arXiv:2301.13808, 2023.
  • Zhang et al. (2023a) Biao Zhang, Barry Haddow, and Alexandra Birch. Prompting large language model for machine translation: A case study. In International Conference on Machine Learning, pp. 41092–41110. PMLR, 2023a.
  • Zhang et al. (2023b) Bowen Zhang, Xianghua Fu, Daijun Ding, Hu Huang, Yangyang Li, and Liwen Jing. Investigating chain-of-thought with chatgpt for stance detection on social media. arXiv preprint arXiv:2304.03087, 2023b.
  • Zhang et al. (2022) Zhuosheng Zhang, Aston Zhang, Mu Li, and Alex Smola. Automatic chain of thought prompting in large language models. arXiv preprint arXiv:2210.03493, 2022.
  • Zhao et al. (2023a) Ruochen Zhao, Xingxuan Li, Shafiq Joty, Chengwei Qin, and Lidong Bing. Verify-and-edit: A knowledge-enhanced chain-of-thought framework. arXiv preprint arXiv:2305.03268, 2023a.
  • Zhao et al. (2023b) Xufeng Zhao, Mengdi Li, Wenhao Lu, Cornelius Weber, Jae Hee Lee, Kun Chu, and Stefan Wermter. Enhancing zero-shot chain-of-thought reasoning in large language models through logic. arXiv preprint arXiv:2309.13339, 2023b.
  • Zhou et al. (2022) Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, et al. Least-to-most prompting enables complex reasoning in large language models. arXiv preprint arXiv:2205.10625, 2022.
  • Zhou et al. (2023) Yucheng Zhou, Xiubo Geng, Tao Shen, Chongyang Tao, Guodong Long, Jian-Guang Lou, and Jianbing Shen. Thread of thought unraveling chaotic contexts. arXiv preprint arXiv:2311.08734, 2023.
  • Zhu et al. (2021) Fengbin Zhu, Wenqiang Lei, Youcheng Huang, Chao Wang, Shuo Zhang, Jiancheng Lv, Fuli Feng, and Tat-Seng Chua. Tat-qa: A question answering benchmark on a hybrid of tabular and textual content in finance. arXiv preprint arXiv:2105.07624, 2021.
  • Zhu et al. (2020) Ming Zhu, Aman Ahuja, Da-Cheng Juan, Wei Wei, and Chandan K Reddy. Question answering with long multiple-span answers. In Findings of the Association for Computational Linguistics: EMNLP 2020, pp. 3840–3849, 2020.