基于大型语言模型的代理的内存共享

Hang Gao, Yongfeng Zhang
Department of Computer Science
Rutgers University
New Brunswick, NJ 08854, USA
{h.gao, yongfeng.zhang}@rutgers.edu

摘要

在人工智能领域，基于大语言模型（大语言模型）的代理通过自然语言提示执行任务代表了一项重大进步，特别是消除了对固定答案任务进行显式再训练或微调的需要，例如常识性问题和是/否问题。然而，将情境学习应用于开放式挑战（例如诗歌创作），由于所提供示例的全面性和代理理解问题中表达的内容的能力而暴露出很大的局限性，导致输出经常出现显着差异从预期结果来看。为了解决这一差距，我们的研究引入了大语言模型多智能体的内存共享（MS）框架，该框架利用实时内存存储和检索系统来增强上下文学习过程。该系统中的每个“内存”都会捕获来自基于 LLM 的代理的提出的查询和相应的实时响应，从广泛的类似代理中聚合这些内存，以丰富所有代理共享的内存池。该框架不仅帮助智能体识别与特定任务最相关的示例，而且还评估其记忆对于其他智能体未来应用的潜在效用。涉及代理专门功能的三个不同领域的实证验证表明，MS 框架显着提高了代理对开放式问题重新评分的性能。此外，我们还讨论了MS中什么类型的内存池和什么样的检索策略可以更好地帮助智能体，为MS未来的发展方向提供了方向。代码和数据可在：https://github.com/GHupppp/MemorySharingLLM

1简介

大语言模型的出现引发了机器学习领域的一场变革，主要体现在模型微调技术的创新上。然而，上下文学习和即时工程的出现预示着更微妙的演变，使模型和用户之间能够进行动态和直观的交互。这是通过在适应新任务时绕过参数更新或显式模型再训练的传统必要性来实现的。这些进步强调了通过对特定任务提示进行策略调节来大幅扩展基于 LLM 的代理能力的潜力，其中根据当前的问题类型采用不同的策略。最初，引入上下文学习是为了促进基于 LLM 的代理以最少的示例实现值得称赞的性能（Brown 等人，2020），并随后扩展到各个领域（Ahmed & Devanbu， 2022；Izacard 等人，2022）。随后，思想链提示的提出显着提高了基于LLM的智能体执行算术任务的熟练程度（Wei等人，2022）。在此基础上，PAL （高等人，2023）等创新方法以及大语言模型与符号求解器的集成（He-Yueya等人，2023）旨在进一步增强代理处理推理任务的能力。最近的工作还开发了能够不断获得多种技能并做出新发现的智能体（王等人，2023a）。同时，检索增强生成的引入标志着知识密集型任务的显着改进（Lewis等人，2020），并随后促进了开放域查询中更有效的生成（毛等）人，2020）。在最近的发展中，自学习技术已与上下文学习中的检索机制相结合，通过检索具有最相似模式的示例来完善文本生成任务中的模型性能（Rubin 等人，2021；Wang等人，2023b)。这些创新共同提高了跨一系列应用程序与基于 LLM 的代理的交互效率。

Refer to caption — 图1：内存共享框架。每当生成新的（Prompt，Answer）训练对时，都会将其添加到内存池和检索器中。

尽管上下文学习通过精心构建提示来提供明确的指令和上下文清晰度，可以熟练地提高复杂任务的模型性能，但在涉及开放式查询（例如诗歌生成或横向思维难题）的场景中，其适用性仍然减弱。基于 LLM 的代理导航和解决此类查询的能力将使这些实体与人类认知过程更加紧密地结合起来，并通过采用更灵活和全面的解决问题的方法来增强它们创造真正新颖性的潜力。然而，开放式询问的回答需要对各种知识的全面参考和更好的理解，这是当前代理所缺乏的方面。当这些知识库的内容（通常是一维的和静态的）不定期更新时，这种限制会进一步加剧，从而加剧了解决开放式查询和不断变化的参考需求的难度。为了解决这些问题，我们在代理之间引入了内存共享（MS）框架，这是一种新颖的框架，专门设计用于克服与确保全面的示例覆盖率和增强上下文学习背景下知识库的活力相关的障碍。

在 MS 框架内，智能体的输入与其后续输出之间的交互被概念化为“提示-回答”（PA）对，共同形成智能体的内存池。该框架引入了一种创新的实时内存存储和检索机制，旨在通过从多方面的代理集合中吸收 PA 对来增强代理的内存池。在存储阶段，每个PA对都会受到专门的大语言模型评分员的严格评估，评估其是否适合包含在内存池中，从而有可能在后续的参与中作为参考资产。这个过程保证了内存池的动态扩展能力。检索阶段由自主学习检索系统精心安排，经过校准以确保将异常相关的记忆纳入提示中，从而增强代理对查询本质的理解。图1展示了MS的框架。假设将自我生成的记忆纳入提示中可以显着提高代理人对预期查询含义的理解。此外，不断地将新记忆纳入池中不仅丰富了记忆池，而且不断完善了检索器，提高了其选择相关记忆的效率。通过将每次交互视为一个有凝聚力的 PA 对，该框架保证了以集成方式考虑提出的每个查询和生成的响应。我们的经验证据表明，这种方法可以极大地帮助基于 LLM 的代理生成更符合用户期望的输出。

我们通过三个不同的域来评估 MS 框架，其中每个域都涉及三个代理的参与，每个代理在其域下都有专门的任务。我们的发现表明，内存池的增量添加导致了输出的精度和相关性的增强。这项研究描述了 MS 框架减轻与情境学习相关的固有限制的能力，从而强调了其潜在的适用性和有效性。

下面，第 2 节描述了相关工作。第 3 节对 MS 框架进行了详尽的阐述，包括其概念基础和操作方法。第 4 节对框架解决开放式查询的增强能力进行了实证验证。第 5 节中提出的结论不仅总结了研究结果，还探讨了 MS 框架未来发展的前瞻性途径，这可能更好地帮助改进基于 LLM 的代理。

2相关工作

2.1情境学习

上下文学习利用大型语言模型的能力，通过将最少数量的示例合并到提示中来解决任务，有时可以与以前最先进的微调方法的有效性相媲美甚至超越(布朗等人，2020）。遵循这种范式，人们越来越重视精心构建提示，为模型提供明确的指令和上下文清晰度，从而提高其执行复杂任务的熟练程度（Levine 等人，2021；Zhou 等人，2022 ；刘等人，2023；怀特等人，2023）。随后的研究探索了问答领域，表明众包指令可以显着提高智能体在该领域的表现（Mishra 等人，2021）。此外，情境学习已被证明可以促进智能体内部的创造性学习（Swanson 等人，2021）。通过对输入进行策略性重新设计也取得了进步，使大语言模型越来越擅长解决逻辑困境，特别是在处理相互关联的问题和答案时（Wiegreffe 等人，2021；Wu 等人，2022）。事实证明，阐明示例和任务之间的联系对大语言模型（Lampinen 等人，2022）有很大好处。该领域的进一步进展归因于复杂方法论的引入，例如思想链（CoT）提示（Wei等人，2022）及其衍生产品，如PAL（Gao等）人，2023），其中包含中间推理步骤，以提高复杂推理任务的性能。尽管如此，在解决开放式查询时，智能体仍然遇到两个主要障碍：问题描述不充分，影响了智能体的理解；外部知识库中可用参考资料的范围所带来的限制，尽管其性质广泛，但可查阅的资源范围有限。我们的内存共享（MS）框架已经过实证验证，可以提高代理在这些方面的熟练程度，从而提高他们在开放式查询上的表现。

2.2 检索增强生成

针对知识密集型 NLP 任务，提出检索增强生成，通过直接输入整合、注意力混合和输出插值等源归因方法，增强大语言模型准确、及时生成内容的能力( Lewis 等人, 2020; Ram 等人, 2023; Shi 等人, 2023)。创新如采用经典检索方法 BM25 (Luo 等人, 2023; Liu 等人, 2022) 或 SBERT (Reimers & Gurevych, 2019)，最相似的话语与查询一起被选择。这种方法得到了密集检索的进一步补充，利用反馈驱动的密集检索器通过对比学习进行有效的示例检索，这代表着在最大化上下文学习效率方面取得了重大进展（Rubin等人，2021）。在此基础上，通过在猎犬训练过程中重复对比学习过程，进一步提升猎犬的表现（王等人，2023b）。然而，对于这些检索器来说，它们在投入使用之前都经过了一次训练，因此检索器不会不断更新，并且无法为某些新查询获取最相关的示例。一旦添加了新的内存，MS 框架中的检索器就会一直进行连续训练。这使得检索器处于不断更新和进化的过程中，检索器检索到的记忆也逐渐变得越来越相关。

3 内存共享框架

内存共享（MS）框架包含一套专门为内存存储和检索而设计的功能。 3.1节详细描述了内存的含义和起源，最重要的是内存写入机制。这个过程采用了独特的分级机制，使MS能够过滤出不仅与当前智能体的主题焦点相关而且具有普遍适用性的记忆，从而促进它们在同一领域内的智能体之间的参考。 3.2 节详细说明了检索机制。此操作有助于确定那些最适合集成到针对即时查询定制的新颖提示中的内存，同时利用最新的、高质量的新内存来完善模型训练。图2描述了一个显示内存存储和检索的玩具示例。

3.1内存存储

3.1.1 内存生成

每个记忆都被概念化为一对（提示，答案）。在向代理提出查询时，检索器根据所采用的策略（例如三次学习）确定要从内存池中获取的内存量。这些记忆与原始查询相结合，形成增强的提示。然后，该复合提示与代理交互以得出相应的答案。随后，该增强的提示和由此产生的答案构成了可能包含在内存池中的内存候选者，这与仅将原始查询与其输出形成一对的传统配对不同。该模型遵循实时内存集成框架，其中始终考虑将代理的最新提示和答案添加到内存池中并训练检索模型。存储在内存中的内容由基于 LLM 的代理生成，既包含代理本身生成的答案，也包含包含其他代理先前提供的信息的提示。因此，除了初始查询之外，仅来自代理贡献的聚合记忆有助于增强当前代理对综合提示的理解。此外，记忆的起源——源于与统一的总体目标一致但从事不同的专门任务的代理——促进了多方面的学习体验。这种方法使代理能够获得开放式查询各个维度的见解。此外，内存池的动态扩展保证了新信息的不断涌入，从而丰富了智能体的知识库。事实证明，这样的池对于解决开放式查询很有帮助，因为它为代理提供了更广阔的视角和更深入的理解，这对于生成消息灵通的响应至关重要。

3.1.2 内存写入

每个新出现的候选记忆都通过评分接受系统的评估程序。在此评估阶段之前，为每个领域建立不同的评分标准，并将评分责任委托给大语言模型本身。为了便于大语言模型理解这些量规，这些量规是由大语言模型自主生成的，假设它会更熟练地掌握自己设计的概念。因此，这些标准的建立先于整个框架的操作部署，以排除 LLM 生成的评估中固有的可变性，这可能导致差异并可能损害记忆评估的公平性。因此，智能体在给定域内产生的所有记忆都会根据这套统一的标准进行评估，从而确保整个评估过程的一致性。在正式实施之前，这些标准会经历手动审核阶段。这项审查不仅评估了潜在记忆与智能体当前焦点任务的相关性，还评估了它们与该领域内其他智能体的相关性，以确定它们的预期效用。不将此组件的评估委托给大型语言模型的理由在于手动筛选提供了更高的精度，从而改进了现有的规则，以更准确地满足代理的独特要求，特别是关于潜在的使用环境。大型语言模型就其本质而言，可能无法同时全面考虑这些细微差别的需求。在最终确定适当的评分标准后，它会与新生成的记忆相集成，以供基于 LLM 的评分员进行评估。超过预定义阈值（也由大语言模型确定）的内存将被纳入内存池。

3.2 内存检索

在 MS 进行操作部署之前，会在内存池中手动存档一小部分实例。这些实例实现了双重目的：首先，它们提供了多样化的记忆阵列，每个代理可以在面对新查询时尝试新颖的提示；其次，它们构成了我们的猎犬的初级知识训练语料库。这种基础训练方案反映了随后存档的记忆将被实时吸收到我们的模型中的方法，从而促进模型持续的自适应学习和优化。

3.2.1 记忆训练

每当有新的内存 $(X,Y)$ 要添加到池中时，它也会用于训练我们的检索器，这有助于检索器不断更新自身并不断适应新的内存。基于新生成的内存 $(X,Y)$ ，经典方法BM25确定来自多样化和广泛的内存池的最相关的top- $n$ 候选对 $\{(x_{i},y_{i})\}_{i=1}^{n}$ ，标记为 $C$ 。 $C$ 内的每个候选者都会利用大语言模型的综合评分功能进行评估。所采用的评分机制由以下等式定义：

p(x_{i},y_{i})=\text{P}(\neg Y\mid(x_{i},y_{i}),\,X),\quad i\in\{1,2,\ldots,n\}

(1)

该方程旨在确定，给定 $C$ 中的输入输出对 $(x_{i},y_{i})$ 作为条件，为新存储器中的输入生成的响应与新存储器中的输出相矛盾的概率记忆。该分级部分作为后续对每个候选示例进行标记的准备步骤。值得注意的是，将 $\neg Y$ 作为结果部分是试图确保检索器从其他代理获得的记忆具有参考价值，但它不一定是与当前问题最相关的，这意味着它可以帮助当前的智能体从新的例子中学习。这种方法与简单地依赖 $Y$ 作为结果不同，后者往往将检索过程限制在当前代理先前存储的内存中。

在定义的集合 $C=\{(x_{i},y_{i})\}_{i=1}^{n}$ 内，现在每个候选者都被赋予一个分数。我们从最低分到最高分对它们进行排序，并总共选择 $v$ 内存进行标记。 $C$ 中的最高 $\frac{v}{2}$ 候选者（最低分数）被识别为具有 $(X,Y)$ 参考值的对，因此，它们的标签被设置为正。相反，底部的 $\frac{v}{2}$ 候选者被认为对 $(X,Y)$ 的参考价值最小，因此它们的标签被指定为负数。这些 $v$ 记忆受到进一步的区分和分类，以阐明它们与查询中的上下文的相关性和适用性。这种有条不紊的方法确保了对数据进行系统和细致的分析，有助于识别和标记相关记忆以供后续使用。这些标记数据将用于最小化以下函数：

\text{loss}(x,y)=-\frac{1}{v}\sum_{i=1}^{v}\left[y_{i}\cdot\log\left(\frac{1}{% 1+e^{-x_{i}}}\right)+(1-y_{i})\cdot\log\left(1-\frac{1}{1+e^{-x_{i}}}\right)\right]

(2)

它提高了预测准确性，这在处理不平衡内存池时尤其重要。这一战略选择强调了我们的模型已准备好从各种记忆中提取有意义的见解，从而推进我们开发强大且适应性强的 MS 机制的总体目标。

3.2.2 从内存中提示构建

对原始查询和池中的内存进行编码后，我们使用余弦相似度来浏览这些内存。排名靠前的记忆的选择标准取决于所采用的检索策略，该策略可能从单次学习到多次学习有所不同。在识别和选择最相关的记忆之后，这些记忆将作为提示中的上下文示例按顺序连接起来，最终在序列末尾整合初始查询。因此，这个串联序列形成了一个新的提示，随后将其提供给代理进行处理。这种结构化过程不仅简化了从内存池中检索相关信息的过程，而且还有助于生成上下文丰富的提示，以便从代理那里引发更明智的响应。集成过程使用专门策划的记忆来阐明手头的查询，每个记忆都是由在同一域内操作的代理生成的。这种方法使当前的代理能够通过多方面的视角处理查询，从而显着增强他们的理解。此外，它还营造了一种场景，其中代理受到有关开放式查询的内在推理的启发，可以更深入地理解其潜在意义。这种方法不仅扩大了查询解释的范围，而且还通过利用特定领域的见解来丰富代理的响应质量。

4实验

我们的实验基于 GPT-3.5-Turbo (Brown 等人, 2020)。对于评估指标，我们使用 BERTScore (Zhang* 等人, 2020)、ROGUE-2 (Lin, 2004) 和 ROGUE-L (Lin, 2004) ）帮助我们评估内存的使用情况，以提高代理在答案的平均相关性和结构相关性方面的性能。

	Zero			One			Two			Three
Agent	Rogue-2	Rogue-L	BERT	Rogue-2	Rogue-L	BERT	Rogue-2	Rogue-L	BERT	Rogue-2	Rogue-L	BERT
Limerick	0.06	0.15	0.50	0.25	0.37	0.69	0.44	0.52	0.76	0.75	0.77	0.87
Wuyanlvshi	0	0	0.66	0	0	0.72	0	0	0.71	0	0	0.72
Sonnet	0.02	0.14	0.48	0.02	0.13	0.53	0.1	0.15	0.53	0.1	0.15	0.53
Lateral-think	0.07	0.19	0.53	0.09	0.21	0.51	0.09	0.25	0.56	0.09	0.26	0.59
Pun	0.27	0.43	0.61	0.20	0.35	0.64	0.30	0.43	0.67	0.24	0.37	0.70
Riddle	0.71	0.80	0.86	0.32	0.48	0.64	0.44	0.56	0.70	0.62	0.75	0.88
Fitness	0.02	0.06	0.46	0.04	0.15	0.61	0.06	0.18	0.64	0.07	0.19	0.65
Study	0.008	0.04	0.44	0.01	0.15	0.65	0.01	0.17	0.60	0.02	0.14	0.63
Travel	0.03	0.06	0.45	0.02	0.12	0.55	0.14	0.28	0.71	0.12	0.18	0.71

表格1：跨代理使用不同数量的内存来执行开放式查询的性能。每个域都有自己的域池，在其三个代理中共享。每个指标的每个代理内的最高分数以粗体表示。

	Metric	Limerick	Wuyanlvshi	Sonnet	Lateral-think	Pun	Riddle	Fitness	Study	Travel
	Rogue-2	0.75	0.00	0.10	0.09	0.24	0.62	0.07	0.02	0.12
Domain-pool	Rogue-L	0.77	0.00	0.15	0.26	0.37	0.75	0.19	0.14	0.18
	BERT	0.87	0.72	0.53	0.59	0.70	0.88	0.65	0.63	0.71
	Rouge-2	0.05^$\downarrow$	0.00	0.01^$\downarrow$	0.06^$\downarrow$	0.26	0.60^$\downarrow$	0.02^$\downarrow$	0.005^$\downarrow$	0.02^$\downarrow$
Single-pool	Rogue-L	0.12^$\downarrow$	0.00	0.10^$\downarrow$	0.19^$\downarrow$	0.43	0.71^$\downarrow$	0.11^$\downarrow$	0.07^$\downarrow$	0.10^$\downarrow$
	BERT	0.60^$\downarrow$	0.68^$\downarrow$	0.49^$\downarrow$	0.54^$\downarrow$	0.70	0.80^$\downarrow$	0.62^$\downarrow$	0.63^$\downarrow$	0.58^$\downarrow$

表2：通过利用三个合适的内存进行开放式查询，使用域池与单池的代理性能。

4.1实验详情

我们的目标是评估 MS 框架在处理三个主要领域的开放式查询方面的功效：文学创作、非常规逻辑问题解决和计划生成。在文学创作领域，我们指定了三位专门代理人，分别负责五言律诗、打油诗、十四行诗的创作。在逻辑问题解决领域，专门的代理负责解决横向谜题、谜语和双关语。同时，对于计划生成，我们开发了代理来创建学习计划、旅行计划和健身计划。对于每个代理，都会选择预先提供的完整实例的一致的小子集，并将其合并到内存池中，以用于检索器训练和提示细化的初始阶段。随后，对于每个代理，将引入相同数量的查询以增加池内的实时内存量。

记忆影响的评估从实施不同的检索策略开始，包括零样本、一次、两次和三次学习模式。在这个初级知识阶段之后，调查分为定量分析和定性分析的评估。关于定性维度，该研究描绘了两种不同类型的内存池：域池和单池。 Domain-pool是指为每个域分配一个专用的内存池，并为该域内的所有代理共享，旨在增强域特定内存的集成。相反，第二个池将来自所有域的代理集成到统一的内存池中，以便于跨域内存利用率的总体分析。在定量方面，实验分为五个离散阶段，每个阶段的特点是向现有内存池添加预定数量的新内存。在每个阶段的关键时刻，都会对代理绩效进行评估，以确定改进或退化。这种双方面的方法使得能够深入探索真实记忆在不同领域的细微影响和适用性，从而促进对其差异效应的全面理解。

4.2实验分析

我们实验的主要结果如表1所示，它描述了每个代理在内存共享（MS）框架内的各种学习策略下的性能。不同的策略将帮助智能体检索不同数量的内存进行组合。随着使用的内存的增加，大多数智能体的性能越来越好，这意味着在同一域下，不同类型的内存将帮助智能体更好地理解问题并生成更相关的答案，而不是干扰代理人的学习能力。具体来说，在文字创建域和计划生成域中，所有代理在利用其他代理的内存后都表现出增强的性能，如 ROUGE 和 BERTScore 指标所证明的那样。这种增强表明共享记忆使智能体能够更好地理解文学作品的描述并产生更相关的反应。但对于无言律师来说，性能并没有太大变化，这可能导致存储内存时使用的语言不同。统一所使用的语言，这可能有助于提高MS未来的性能。此外，在非常规逻辑问题解决领域，虽然与不使用记忆相比，ROUGE 分数仍然相对较低，但 BERTScore 的改进表明成功地同化了记忆中的各种知识，从而导致输出越来越细致入微且语义一致。总之，MS 框架通过内存共享促进了代理之间的持续性能改进，强调了其潜在的实用性。

表.2比较了所有智能体在三样本学习策略下使用域池或单池的场景，因为之前的实验表明大多数智能体在三样本学习策略下实现了最佳性能射击学习。除了 Agent-Pun 之外，所有其他代理在单池中的性能均有所下降。这些数据阐明了相对于相同域内的代理使用不同的、特定于域的内存池的情况，性能普遍下降。这一结果意味着共享相似特征的智能体从特定领域内存池的排他性中获得最大优势，因为跨域内存的结合可能会对智能体的学习效率产生不利影响。

此外，在应用三镜头学习且每个智能体使用域池的查询中，图3描绘了由于新生成的记忆的不同比率的集成而导致的各个智能体之间的性能变化进入池中。具体来说，对于代理旅行来说，性能得到了持续的增强。相反，对于大多数智能体来说，随着池内内存量的扩大，观察到性能最初有所提高，随后又下降。这种模式表明，无论记忆类型的同质性如何，记忆的过度积累最终可能会阻碍智能体的学习效率和输出质量。因此，确定特定领域的内存池的最佳容量成为未来研究的相关问题。关于观察到的代理无言律师的表现波动，这些暂时归因于语言不同。

5结论

我们引入了一种新颖的框架内存共享，它通过内存存储和检索来处理实时内存。研究结果表明，增加高质量记忆量可以增强基于 LLM 的智能体理解问题细微差别的能力，并针对开放式查询生成更相关的响应。而每一个高品质记忆的产生，不仅有助于我们记忆库的扩充，也有助于猎犬的循环训练。这个系统过程保证了，当内存池保持动态扩展时，检索器保持一致地识别和选择最相关的内存以供代理使用的能力。关于未来的研究方向，假设可以通过开发确定内存池最佳大小的方法来增强内存共享（MS）框架的功效。目前，观察到同一大语言模型模型下的所有代理均使用 MS。它值得对在各种基础模型（例如 GPT-4、LLaMA-2、Claude-2）中部署相同代理的影响进行全面评估。这种方法将利用从不同的大语言模型（大语言模型）获得的记忆。此外，该框架在微调过程中的潜在整合提供了另一条探索途径。这些对 MS 的研究代表了利用实时内存来增强基于 LLM 的代理的能力的进步，为人工智能领域的未来研究和实际应用提供了广阔的前景。

参考

Ahmed & Devanbu (2022) Toufique Ahmed and Premkumar Devanbu. Few-shot training llms for project-specific code-summarization. In Proceedings of the 37th IEEE/ACM International Conference on Automated Software Engineering, pp. 1–5, 2022.
Brown et al. (2020) Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.
Gao et al. (2023) Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, and Graham Neubig. Pal: Program-aided language models. In International Conference on Machine Learning, pp. 10764–10799. PMLR, 2023.
He-Yueya et al. (2023) Joy He-Yueya, Gabriel Poesia, Rose E Wang, and Noah D Goodman. Solving math word problems by combining language models with symbolic solvers. arXiv preprint arXiv:2304.09102, 2023.
Izacard et al. (2022) Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. Atlas: Few-shot learning with retrieval augmented language models. arXiv preprint arXiv:2208.03299, 2022.
Lampinen et al. (2022) Andrew K Lampinen, Ishita Dasgupta, Stephanie CY Chan, Kory Matthewson, Michael Henry Tessler, Antonia Creswell, James L McClelland, Jane X Wang, and Felix Hill. Can language models learn from explanations in context? arXiv preprint arXiv:2204.02329, 2022.
Levine et al. (2021) Yoav Levine, Noam Wies, Daniel Jannai, Dan Navon, Yedid Hoshen, and Amnon Shashua. The inductive bias of in-context learning: Rethinking pretraining example design. arXiv preprint arXiv:2110.04541, 2021.
Lewis et al. (2020) Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
Lin (2004) Chin-Yew Lin. ROUGE: A package for automatic evaluation of summaries. In Text Summarization Branches Out, pp. 74–81, Barcelona, Spain, July 2004. Association for Computational Linguistics. URL https://www.aclweb.org/anthology/W04-1013.
Liu et al. (2022) Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen. What makes good in-context examples for GPT-3? In Eneko Agirre, Marianna Apidianaki, and Ivan Vulić (eds.), Proceedings of Deep Learning Inside Out (DeeLIO 2022): The 3rd Workshop on Knowledge Extraction and Integration for Deep Learning Architectures, pp. 100–114, Dublin, Ireland and Online, May 2022. Association for Computational Linguistics. doi: 10.18653/v1/2022.deelio-1.10. URL https://aclanthology.org/2022.deelio-1.10.
Liu et al. (2023) Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Computing Surveys, 55(9):1–35, 2023.
Luo et al. (2023) Man Luo, Xin Xu, Zhuyun Dai, Panupong Pasupat, Mehran Kazemi, Chitta Baral, Vaiva Imbrasaite, and Vincent Y Zhao. Dr. icl: Demonstration-retrieved in-context learning. arXiv preprint arXiv:2305.14128, 2023.
Mao et al. (2020) Yuning Mao, Pengcheng He, Xiaodong Liu, Yelong Shen, Jianfeng Gao, Jiawei Han, and Weizhu Chen. Generation-augmented retrieval for open-domain question answering. arXiv preprint arXiv:2009.08553, 2020.
Mishra et al. (2021) Swaroop Mishra, Daniel Khashabi, Chitta Baral, and Hannaneh Hajishirzi. Cross-task generalization via natural language crowdsourcing instructions. arXiv preprint arXiv:2104.08773, 2021.
Ram et al. (2023) Ori Ram, Yoav Levine, Itay Dalmedigos, Dor Muhlgay, Amnon Shashua, Kevin Leyton-Brown, and Yoav Shoham. In-context retrieval-augmented language models. Transactions of the Association for Computational Linguistics, 11:1316–1331, 2023.
Reimers & Gurevych (2019) Nils Reimers and Iryna Gurevych. Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint arXiv:1908.10084, 2019.
Rubin et al. (2021) Ohad Rubin, Jonathan Herzig, and Jonathan Berant. Learning to retrieve prompts for in-context learning. arXiv preprint arXiv:2112.08633, 2021.
Shi et al. (2023) Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, and Wen-tau Yih. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv:2301.12652, 2023.
Swanson et al. (2021) Ben Swanson, Kory Mathewson, Ben Pietrzak, Sherol Chen, and Monica Dinalescu. Story centaur: Large language model few shot learning as a creative writing tool. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pp. 244–256, 2021.
Wang et al. (2023a) Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar. Voyager: An open-ended embodied agent with large language models. arXiv preprint arXiv:2305.16291, 2023a.
Wang et al. (2023b) Liang Wang, Nan Yang, and Furu Wei. Learning to retrieve in-context examples for large language models. arXiv preprint arXiv:2307.07164, 2023b.
Wei et al. (2022) Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems, 35:24824–24837, 2022.
White et al. (2023) Jules White, Quchen Fu, Sam Hays, Michael Sandborn, Carlos Olea, Henry Gilbert, Ashraf Elnashar, Jesse Spencer-Smith, and Douglas C Schmidt. A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382, 2023.
Wiegreffe et al. (2021) Sarah Wiegreffe, Jack Hessel, Swabha Swayamdipta, Mark Riedl, and Yejin Choi. Reframing human-ai collaboration for generating free-text explanations. arXiv preprint arXiv:2112.08674, 2021.
Wu et al. (2022) Tongshuang Wu, Michael Terry, and Carrie Jun Cai. Ai chains: Transparent and controllable human-ai interaction by chaining large language model prompts. In Proceedings of the 2022 CHI conference on human factors in computing systems, pp. 1–22, 2022.
Zhang* et al. (2020) Tianyi Zhang*, Varsha Kishore*, Felix Wu*, Kilian Q. Weinberger, and Yoav Artzi. Bertscore: Evaluating text generation with bert. In International Conference on Learning Representations, 2020. URL https://openreview.net/forum?id=SkeHuCVFDr.
Zhou et al. (2022) Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, and Jimmy Ba. Large language models are human-level prompt engineers. arXiv preprint arXiv:2211.01910, 2022.

附录A附录

A.1 评分标准

A.2提示与回答

A.3数据集

在每个领域的范围内，系统地从互联网上获取示例，然后将其用作对提出的每个查询的响应。尤其是《无言律诗》——中国文学中著名且具有历史意义的诗歌——因其知名度和广泛认可而经过精心挑选。此外，纳入我们研究的十四行诗源自莎士比亚于 1609 年创作的“四开本”集。对于每个答案对应的问题的制定，这个任务就委托给了ChatGPT。该过程需要向模型提供选定的答案，然后指示模型生成相关问题。图9展示了一个说明性示例，详细说明了基于所提供答案的问题生成过程。