许可证:arXiv.org 永久非独占许可证
arXiv:2402.01680v1 [cs.CL] 2024 年 1 月 21 日

基于大型语言模型的多代理:进展和挑战的调查

Taicheng Guo1    Xiuying Chen2    Yaqi Wang3 This work was done when Yaqi and Ruidi were visiting students at the University of Notre Dame.    Ruidi Chang411footnotemark: 1    Shichao Pei5   
Nitesh V. Chawla1
   Olaf Wiest1    Xiangliang Zhang1 1University of Notre Dame
2King Abdullah University of Science and Technology
3Southern University of Science and Technology
4Unaffliated
5University of Massachusetts Boston {tguo2, nchawla, owiest, xzhang33}@nd.edu, xiuying.chen@kaust.edu.sa, ywang84@nd.edu, ruidic@alumni.cmu.edu, shichao.pei@umb.edu
Corresponding author.
摘要

大型语言模型(大语言模型)在广泛的任务中取得了显着的成功。 由于大语言模型令人印象深刻的规划和推理能力,它们已被用作自主代理来自动完成许多任务。 近年来,在使用一个大语言模型作为单一规划或决策代理的发展基础上,基于LLM的多代理系统在复杂问题解决和世界模拟方面取得了长足的进步。 为了向社区提供对这个动态领域的概述,我们提出了这项调查,以深入讨论基于大语言模型的多智能体系统的基本方面以及挑战。 我们的目标是让读者获得对以下问题的深入见解:基于 LLM 的多智能体模拟哪些领域和环境? 这些代理的概况如何以及他们如何沟通? 哪些机制有助于代理人能力的增长? 对于那些有兴趣深入研究这一领域的人,我们还总结了常用的数据集或基准,以方便他们访问。 为了让研究人员了解最新研究,我们维护了一个开源 GitHub 存储库,致力于概述基于 LLM 的多智能体系统的研究。

1简介

大型语言模型(大语言模型)最近在达到与人类相当的推理和规划能力水平方面显示出巨大的潜力。 这种能力完全符合人类对能够感知周围环境、做出决策并采取行动响应的自主智能体的期望Xi 等人 (2023);伍德里奇和詹宁斯 (1995);拉塞尔和诺维格(2009);郭等人 (2023);梁等人 (2023). 因此,基于 LLM 的智能体已被研究并迅速开发出来,以理解和生成类人指令,促进各种环境中复杂的交互和决策Yao 等人 (2023); Shinn 等人 (2023); Li 等人 (2023d). 及时的调查论文系统地总结了 LLM 代理人的进展,如著作Xi等人(2023);王等人(2023b)

Refer to caption
图1: 基于LLM的Multi-Agents研究领域呈上升趋势。 对于问题解决和世界模拟,我们将当前工作分为几个类别,并以 3 个月为间隔统计不同类型的论文数量。 每个叶节点的数字表示该类别中论文的数量。

基于单个基于 LLM 的代理的启发能力,基于 LLM 的多代理被提出来利用多个代理的集体智慧、专业档案和技能。 与使用单个 LLM 支持的代理的系统相比,多代理系统通过1)将大语言模型专门化为各种不同的代理,每个代理具有不同的功能,从而提供高级功能,并且2) 使这些不同的代理之间能够进行交互,以有效地模拟复杂的现实环境。 在这种情况下,多个自主代理协作参与规划、讨论和决策,反映了人类群体在解决问题任务中的合作本质。 这种方法利用了大语言模型的交流能力,利用它们生成用于交流的文本并响应文本输入的能力。 此外,它还利用了大语言模型跨各个领域的广泛知识及其专门从事特定任务的潜在潜力。 最近的研究证明了利用基于 LLM 的多智能体解决各种任务的有希望的结果, 例如软件开发Hong 等人 (2023); Qi 等人 (2023),多机器人系统 Mandi 等人 (2023);张等人(2023c),社会模拟公园等人(2023, 2022),政策模拟肖等人(2023); Hua 等人 (2023),以及游戏模拟 Xu 等人 (2023c);王等人(2023c) 由于该领域跨学科研究的性质,它吸引了各种各样的研究人员,不仅包括人工智能专家,还包括来自社会科学、心理学和政策研究的专家。 研究论文数量迅速增加, 如图1所示(受Gao等人(2023b)中的设计启发),从而扩大了基于LLM的Multi-Agent研究的影响。 尽管如此,早期的研究工作都是独立进行的,因此缺乏系统性的综述来总结这些工作,为这一领域绘制全面的蓝图,并审视未来的研究挑战。 这强调了我们工作的重要性,也是提出这篇调查论文的动机,该论文致力于基于 LLM 的多智能体系统的研究。

我们期望我们的调查能够为大语言模型的研究和开发以及利用大语言模型进行更广泛的跨学科研究做出重大贡献。 读者将全面了解基于LLM的多智能体(LLM-MA)系统,掌握建立基于大语言模型的多智能体系统的基本概念,并了解这一动态领域的最新研究趋势和应用。 我们认识到该领域正处于早期阶段,并且正在通过新的方法和应用快速发展。 为了提供可持续的资源来补充我们的调查论文,我们维护一个开源 GitHub 存储库111https://github.com/taichengguo/LLM_MultiAgents_Survey_Papers 我们希望我们的调查能够激发该领域的进一步探索和创新,以及在广泛的研究学科中的应用。

为了帮助来自不同背景的个人了解 LLM-MA 技术,并通过解决未解决的问题来补充现有的调查,我们按以下方式组织了我们的调查论文。 在第2节中阐述了背景知识之后,我们解决了一个关键问题:LLM-MA系统如何与协作任务解决环境保持一致 为了回答这个问题,我们在3中提出了一个用于定位、区分和连接LLM-MA系统各个方面的综合架构。 我们通过讨论以下内容来深入研究这个问题:1)代理-环境接口,它详细说明代理如何与任务环境交互; 2) 智能体分析,它解释了智能体如何通过大语言模型来表征并以特定方式表现; 3)代理通信,它检查代理如何交换消息和协作; 4)智能体能力获取,探索智能体如何发展其有效解决问题的能力。 回顾 LLM-MA 研究的另一个视角是它们的应用。 4中,我们将当前应用分为两个主要流:用于问题解决的多代理和多代理-世界模拟的代理。 为了指导个人识别合适的工具和资源,我们提供了用于学习 LLM-MA 的开源实施框架,以及5 中的可用数据集和基准> 基于前面的总结,我们在第6节中讨论了未来的研究挑战和机遇。 结论总结在7节中。

2 背景

2.1 单代理系统驱动的大语言模型

我们首先概述基于大语言模型的单智能体系统的功能,然后按照Weng(2023)中提出的讨论来介绍背景。

决策思路:

该术语表示基于 LLM 的智能体在提示的引导下将复杂任务分解为更小的子目标的能力Khot 等人 (2023),系统地思考每个部分(有时探索多个路径)Yao 等人 (2023),并从过去的经验 Shinn 等人 (2023) 中学习,以在复杂任务上做出更好的决策。 此功能增强了单个基于 LLM 的代理的自主权,并增强了其解决问题的有效性。

工具使用:

基于LLM的代理的工具使用能力使他们能够利用外部工具和资源来完成任务,增强其职能能力并在多样化和动态的环境中更有效地运作Li等人(2023d);阮等人 (2023);高等人 (2023b).

记忆:

这种能力是指基于LLM的智能体作为短记忆或外部向量数据库Lewis等人(2021)进行上下文学习Dong等人(2023a)的能力作为长时间保存和检索信息的长记忆Wang 等人(2023b) 这种能力使基于 LLM 的单个代理能够保持上下文连贯性并增强从交互中学习。

2.2单代理VS。多代理系统

大语言模型支持的单智能体系统表现出了鼓舞人心的认知能力Sumers等人(2023) 此类系统的构建集中于制定其内部机制以及与外部环境的相互作用。 相反,LLM-MA 系统强调多样化的代理概况、代理间交互和集体决策过程。 从这个角度来看,更多动态和复杂的任务可以通过多个自主代理的协作来解决,每个自主代理都配备独特的策略和行为,并相互通信。

3剖析 LLM-MA 系统:接口、分析、通信和功能

在本节中,我们将深入研究 LLM-MA 系统的复杂性,其中多个自主代理参与类似于解决问题场景中的人类群体动态的协作活动。 我们要解决的一个关键问题是这些 LLM-MA 系统如何与其运营环境以及它们旨在实现的集体目标保持一致。 为了阐明这一点,我们在图2中展示了这些系统的总体架构。 我们的分析剖析了这些系统的操作框架,重点关注四个关键方面:代理环境接口、代理分析、代理通信和代理能力获取。

Refer to caption
图2: LLM-MA 系统的架构。

3.1 代理-环境接口

操作环境定义了LLM-MA系统部署和交互的特定上下文或设置。 例如,这些环境可以像软件开发Hong 等人(2023)、游戏Mao 等人(2023)以及各种其他领域,例如金融市场 Li 等人 (2023g) 甚至社会行为建模 Park 等人 (2023) 基于 LLM 的代理在环境中感知并采取行动,这反过来又影响他们的行为和决策。 例如,在狼人游戏模拟中,沙盒环境设定了游戏的框架,包括白天到晚上的过渡、讨论时段、投票机制和奖励规则。 特工,例如狼人和先知,执行特定的操作,例如杀死或检查角色。 在这些操作之后,代理会收到来自环境的反馈,告知他们游戏的当前状态。 这些信息指导代理随着时间的推移调整策略,响应不断变化的游戏玩法以及与其他代理的交互。 智能体-环境接口是指智能体与环境交互并感知环境的方式。 通过这个界面,智能体可以了解周围的环境、做出决策并从行动的结果中学习。 我们将LLM-MA系统中当前的接口分为三种类型:Sandbox、PhyscialNone,详见表1 沙箱是指由人类构建的模拟或虚拟环境,智能体可以在其中更自由地交互并尝试各种动作和策略。 这种接口广泛应用于软件开发(代码解释器作为模拟环境)洪等人(2023)、游戏(使用游戏规则作为模拟环境)毛等人(2023) 物理是一个真实世界的环境,代理与物理实体交互并遵守真实世界的物理和约束。 在物理空间中,智能体通常需要采取能够产生直接物理结果的行动。 例如,在扫地、做三明治、包装杂货、整理橱柜等任务中,机器人代理需要迭代地执行动作,观察物理环境,并不断完善自己的动作Mandi 等人 (2023). 最后,指的是没有特定外部环境,代理不与任何环境交互的场景。 例如,很多应用 Du 等人 (2023);熊等人 (2023); Chan 等人 (2023) 利用多个智能体对一个问题进行辩论以达成共识。 这些应用程序主要关注代理之间的通信,不依赖于外部环境。

3.2 代理分析

在 LLM-MA 系统中,代理由其特征、行为和技能定义,这些特征、行为和技能是为满足特定目标而定制的。 在各种系统中,代理承担不同的角色,每个角色都有包含特征、功能、行为和约束的全面描述。 例如,在游戏环境中,代理可能被描述为具有不同角色和技能的玩家,每个玩家对游戏目标的贡献不同。 在软件开发中,代理可以扮演产品经理和工程师的角色,每个人都有指导开发过程的职责和专业知识。 同样,在辩论平台中,代理人可能被指定为支持者、反对者或法官,每个人都有独特的功能和策略来有效地履行自己的角色。 这些配置文件对于定义代理在各自环境中的交互和有效性至关重要。 1列出了近期LLM-MA作品中的代理人概况

关于代理分析方法,我们将其分为三种类型:预定义、模型生成数据派生 预定义情况下,代理配置文件由系统设计者明确定义。 模型生成方法通过模型(例如大型语言模型)创建代理配置文件。 数据派生方法涉及根据预先存在的数据集构建代理配置文件。

3.3 座席沟通

LLM-MA系统中代理之间的通信是支持集体智慧的关键基础设施。 我们从三个角度剖析代理通信:1)通信范式:代理之间交互的风格和方法; 2)通信结构:多智能体系统内通信网络的组织和架构; 3) 代理之间交换的通信内容

沟通范式:

目前的LLM-MA体系主要采用三种交流范式:合作辩论竞争 合作代理为了共同的目标而共同努力,通常交换信息以增强集体解决方案。 当代理人进行辩论性互动、提出和捍卫自己的观点或解决方案以及批评他人的观点或解决方案时,就会采用辩论范式。 这种范例非常适合达成共识或更完善的解决方案。 竞争性代理致力于实现自己的目标,但这些目标可能与其他代理的目标相冲突。

Refer to caption
图3: 代理通信结构。
通讯结构:

3展示了LLM-MA系统中四种典型的通信结构。 分层通信是分层结构的,每个级别的代理都有不同的角色,并且主要在其层内或与相邻层进行交互。 Liu 等人 (2023) 引入了一种称为动态 LLM 代理网络 (DyLAN) 的框架,该框架将代理组织在多层前馈网络中。 这种设置促进了动态交互,结合了推理时间代理选择和提前停止机制等功能,这些功能共同提高了代理之间的合作效率。 去中心化通信在点对点网络上运行,其中代理直接相互通信,这是世界模拟应用程序中常用的结构。 集中式通信涉及一个中央代理或一组中央代理协调系统的通信,其他代理主要通过该中央节点进行交互。 共享消息池是MetaGPT Hong 等人(2023)提出的,旨在提高通信效率。 这种通信结构维护一个共享消息池,代理根据其配置文件发布消息并订阅相关消息,从而提高通信效率。

沟通内容:

在LLM-MA系统中,交流内容通常采用文本形式。 具体内容差异很大,取决于特定的应用。 例如,在软件开发中,代理可以就代码段相互通信。 在像《狼人杀》这样的游戏模拟中,智能体可能会讨论他们的分析、怀疑或策略。

3.4座席能力获取

代理能力获取是 LLM-MA 中的一个关键过程,使代理能够动态学习和发展。 在这种情况下,有两个基本概念:代理人应从哪些类型的反馈中学习,以提高自身能力;以及代理人应采取哪些策略调整自身,以有效解决复杂问题。

反馈:

反馈涉及代理收到的有关其行为结果的关键信息,帮助代理了解其行为的潜在影响并适应复杂和动态的问题。 在大多数研究中,向代理人提供的反馈格式是文本的。 根据代理接收反馈的来源,可以将其分为四种类型。 1)来自环境的反馈,例如来自现实世界环境或虚拟环境Wang等人(2023b) 它在大多数 LLM-MA 解决问题的场景中很普遍,包括软件开发(代理从代码解释器获取反馈)和体现多代理系统(机器人从现实世界或模拟环境获取反馈)。 2)来自Agent交互的反馈是指反馈来自于其他Agent的判断或者来自Agent的沟通。 这在科学辩论等解决问题的场景中很常见,智能体学会通过沟通批判性地评估和完善结论。 在游戏模拟等世界模拟场景中,代理学习根据其他代理之间先前的交互来完善策略。 3)人类反馈直接来自人类,对于使多智能体系统与人类价值观和偏好保持一致至关重要。 这种反馈在大多数“人在环”应用中被广泛使用Wang 等人(2021) 最后4)无 在某些情况下,不会向代理提供任何反馈。 这种情况经常发生在专注于分析模拟结果而不是智能体的规划能力的世界模拟工作中。 在这种情况下,例如传播模拟,重点是结果分析,因此反馈不是系统的组成部分。

代理对复杂问题的调整:

为了增强其能力,LLM-MA 系统中的代理可以通过三种主要解决方案进行调整。 1)记忆。 大多数 LLM-MA 系统利用内存模块让代理调整其行为。 代理将先前交互和反馈的信息存储在记忆中。 在执行行动时,他们可以检索相关的、有价值的记忆,特别是那些包含针对过去类似目标的成功行动的记忆,如 Wang 等人 (2023b) 中强调的那样。 这个过程有助于加强他们当前的行动。 2)自我进化。 与基于内存的解决方案中所见的仅依赖历史记录来决定后续行动不同,智能体可以通过修改自身来动态地自我进化,例如改变其初始目标和规划策略,并根据自身情况进行训练关于反馈或通信日志。 Nascimento 等人 (2023) 提出了一种自控循环过程,让多智能体系统中的每个智能体能够自我管理并自适应动态环境,从而提高多个智能体的协作效率代理。 Zhang 等人(2023b)介绍了ProAgent,它可以预测队友的决策,并根据智能体之间的通信日志动态调整每个智能体的策略,促进相互理解并提高协作规划能力。 Wang 等人 (2023a) 讨论了通过通信学习 (LTC) 范式,使用多智能体的通信日志来生成训练或分布式大语言模型的数据集。 LTC 能够通过与环境和其他智能体的交互来实现智能体的持续适应和改进,打破了上下文学习或监督微调的限制,这些限制没有充分利用在与环境和外部工具交互过程中收到的反馈来进行持续的学习。训练。 自我进化使智能体能够自主调整其个人资料或目标,而不仅仅是从历史交互中学习。 3)动态生成。 在某些场景下,系统可以在运行过程中动态生成新的代理Chen 等人(2023a, c) 此功能使系统能够有效地扩展和适应,因为它可以引入专门为解决当前需求和挑战而设计的代理。

随着LLM-MA的规模扩大,代理人数量增多,管理各种代理人的复杂性不断增加已成为一个关键问题。 代理编排成为一项关键挑战,并在 Moura (2023) 中开始受到关注;迪比亚(2023) 我们将在6.4节进一步讨论这个主题。

Agents Profiling Agents Communication Agents Capabilities Acquisition
Motivation Research Domain & Goals Work Agents-Env. Interface Profiling methods Profiles (examples) Paradigms Structure Feedback from Agents Adjustment
Qian et al. (2023) Sandbox
Pre-defined,
Model-Generated
CTO,
programmer
Cooperative Layered
Environment,
Agent interaction,
Human
Memory,
Self-Evolution
Software development Hong et al. (2023) Sandbox Pre-defined
Product Manager,
Engineer
Cooperative
Layered,
Shared Message Pool
Environment,
Agent interaction,
Human
Memory,
Self-Evolution
Dong et al. (2023b) Sandbox
Pre-defined,
Model-Generated
Analyst,
coder
Cooperative Layered
Environment,
Agent interaction
Memory,
Self-Evolution
Multi-robot
planning
Chen et al. (2023d)
Sandbox,
Physical
Pre-defined Robots Cooperative
Centralized,
Decentralized
Environment,
Agent interaction
Memory
Embodied
Agents
Multi-robot
collaboration
Mandi et al. (2023)
Sandbox,
Physical
Pre-defined Robots Cooperative Decentralized
Environment,
Agent interaction
Memory
Multi-Agents
cooperation
Zhang et al. (2023c) Sandbox Pre-defined Robots Cooperative Decentralized
Environment,
Agent interaction
Memory
Problem Solving
Science
Experiments
Optimization
of MOF
Zheng et al. (2023) Physical Pre-defined
Strategy planers,
literature
collector, coder
Cooperative Centralized
Environment,
Human
Memory
Improving
Factuality
Du et al. (2023) None Pre-defined Agents Debate Decentralized Agent interaction Memory
Science
Debate
Examining,
Inter-Consistency
Xiong et al. (2023) None Pre-defined
Proponent,
Opponent,
Judge
Debate
Centralized,
Decentralized
Agent interaction Memory
Evaluators
for debates
Chan et al. (2023) None Pre-defined Agents Debate
Centralized,
Decentralized
Agent interaction Memory
Multi-Agents
for Medication
Tang et al. (2023) None Pre-defined
Cardiology,
Surgery
Debate,
Cooperative
Centralized,
Decentralized
Agent interaction Memory
Modest Community
(25 persons)
Park et al. (2023) Sandbox Model-generated
Pharmacy,
shopkeeper
- -
Environment,
Agent interaction
Memory
Online community
(1000 persons)
Park et al. (2022) None
Pre-defined,
Model-generated
Camping,
fishing
- - Agent interaction
Dynamic
Generation
Society Emotion propagation Gao et al. (2023a) None
Pre-defined,
Model-generated
Real-world
user
- - Agent interaction Memory
Real-time
social interactions
Kaiya et al. (2023) Sandbox Pre-defined
Real-world
user
- -
Environment,
Agent interaction
Memory
Opinion dynamics Li et al. (2023a) None Pre-defined
NIN, NINL,
NIL
- - Agent interaction Memory
WereWolf
Xu et al. (2023b)
Xu et al. (2023c)
Sandbox Pre-defined
Seer,
werewolf,
villager
Cooperative,
Debate,
Competitive
Decentralized
Environment,
Agent interaction
Memory
Gaming Avalon
Light et al. (2023a)
Wang et al. (2023c)
Sandbox Pre-defined
Servant,
Merlin,
Assassin
Cooperative,
Debate,
Competitive
Decentralized
Environment,
Agent interaction
Memory
Welfare Diplomacy Mukobi et al. (2023) Sandbox Pre-defined Countries
Cooperative,
Competitive
Decentralized
Environment,
Agent interaction
Memory
Human behavior
Simulation
Aher et al. (2023) Sandbox Pre-defined Humans - - Agent interaction Memory
World Simulation Psychology
Collaboration
Exploring
Zhang et al. (2023d) None Pre-defined Agents
Cooperative,
Debate
Decentralized Agent interaction Memory
Macroeconomic
simulation
Li et al. (2023e) None
Pre-defined,
Model-generated
Labor Cooperative Decentralized Agent interaction Memory
Economy
Information
Marketplaces
Anonymous (2023) Sandbox
Pre-defined,
Data-Derived
Buyer
Cooperative,
Competitive
Decentralized
Environment,
Agent interaction
Memory
Improving
financial trading
Li et al. (2023g) Physical Pre-defined Trader Debate Decentralized
Environment,
Agent interaction
Memory
Economic theories Zhao et al. (2023) Sandbox
Pre-defined,
Model-Generated
Restaurant,
Customer
Competitive Decentralized
Environment,
Agent interaction
Memory,
Self-Evolution
Recommender Systems
Simulating
user behaviors
Zhang et al. (2023a) Sandbox Data-Derived
Users from
MovieLens-1M
- - Environment Memory
Simulating user-item
interactions
Zhang et al. (2023e) Sandbox
Pre-defined,
Data-Derived
User Agents
Item Agents
Cooperative Decentralized
Environment,
Agent interaction
Memory
Policy Making
Public
Administration
Xiao et al. (2023) None Pre-defined Residents Cooperative Decentralized Agent interaction Memory
War Simulation Hua et al. (2023) None Pre-defined Countries Competitive Decentralized Agent interaction Memory
Disease
Human Behaviors
to epidemics
[Ghaffarzadegan
et al., 2023]
Sandbox
Pre-defined,
Model-Generated
Conformity
traits
Cooperative Decentralized
Environment,
Agent interaction
Memory
Public health
[Williams
et al., 2023]
Sandbox
Pre-defined,
Model-Generated
Adults aged
18 to 64
Cooperative Decentralized
Environment,
Agent interaction
Memory,
Dynamic
Generation
表格1: LLM-MA 研究摘要。 我们根据动机、研究领域和目标对当前的工作进行分类,并从智能体-环境接口、智能体分析、智能体通信和智能体能力获取等不同方面详细介绍每项工作。 “-”表示该工作中未特别提及特定元素。

4应用

LLM-MA 系统已用于广泛的应用。 我们在表1中总结了两种应用:问题解决世界模拟 我们将在下面详细介绍这些应用。 请注意,这是一个快速发展的研究领域,几乎每天都会出现新的应用。 我们维护一个开源存储库来报告最新的工作。

4.1 LLM-MA解决问题

使用LLM-MA解决问题的主要动机是利用具有专业知识的代理人的集体能力。 这些代理各自充当个体,协作有效地解决复杂问题,例如软件开发、具体代理、科学实验和科学辩论。 接下来介绍这些应用示例。

4.1.1 软件开发

鉴于软件开发是一项复杂的工作,需要产品经理、程序员和测试人员等各种角色的协作,LLM-MA 系统通常设置为模拟这些不同的角色并协作解决复杂的挑战。 遵循软件开发的瀑布或标准化操作程序 (SOP) 工作流程,代理之间的通信结构通常是分层的。 代理通常与代码解释器、其他代理或人类交互,以迭代地完善生成的代码。 Li等人(2023b)首先提出了一种简单的角色扮演代理框架,利用两个角色的相互作用来实现基于一句话用户指令的自主编程。 它提供了对交流主体的“认知”过程的见解。 Dong 等人 (2023b) 让大语言模型成为软件开发子任务的独特“专家”,自主协作生成代码。 此外,Qian 等人 (2023) 提出了一种端到端的软件开发框架,利用多个代理进行软件开发,而无需结合先进的人类团队合作经验。 Hong 等人 (2023) 首先结合了人类工作流程见解,以实现更加受控和验证的性能。 它将 SOP 编码为提示,以增强结构化协调。 Huang 等人 (2023a) 通过解决平衡代码片段生成与有效测试用例生成、执行和优化的问题,深入研究了基于多代理的编程。

4.1.2 具体代理

大多数具体代理应用程序本质上利用多个机器人一起工作来执行复杂的现实世界规划和操作任务,例如具有异构机器人功能的仓库管理。 因此,LLM-MA可用于对具有不同能力的机器人进行建模,并相互协作来解决现实世界的物理任务。 Dasgupta 等人 (2023) 首先探讨了使用大语言模型作为嵌入式代理的行动规划器的潜力。 Mandi 等人 (2023) 介绍了 RoCo,一种新颖的多机器人协作方法,它使用大语言模型进行高层通信和底层路径规划。 每个机械臂均配备大语言模型,配合逆运动学和碰撞检查。 实验结果证明了 RoCo 在协作任务中的适应性和成功性。 Zhang 等人 (2023c) 介绍了 CoELA,一种协作式具体语言代理,可在 LLM-MA 环境中管理讨论和任务规划。 这种具有挑战性的环境具有分散控制、复杂的局部观察、昂贵的通信和多目标长期任务的特点。 Chen 等人 (2023d) 研究了涉及大量机器人的场景中的通信挑战,因为由于上下文较长,为每个机器人分配一个大语言模型将是昂贵且不切实际的。 该研究比较了四种通信框架(集中式、分散式和两种混合模型),以评估它们在协调复杂的多代理任务方面的有效性。 Yu等人(2023)提出了用于多机器人协作视觉目标导航的Co-NavGPT,集成大语言模型作为全局规划器,为每个机器人分配前沿目标。 Chen 等人 (2023b) 提出了一种基于 LLM 的共识寻求框架,可以作为协作规划器应用于多机器人聚合任务。

4.1.3 科学实验

就像多个智能体扮演不同的专家并合作解决软件开发和具体智能体问题一样,多个智能体也可以用来组成一个科学团队来进行科学实验。 与以往应用的一个重要区别在于,由于科学实验的高昂费用和大语言模型智能体的幻觉,人类监督的关键作用。 人类专家处于这些智能体的中心,处理智能体的信息并向智能体提供反馈。 Zheng 等人 (2023) 利用多个基于 LLM 的代理,每个代理都专注于科学实验的特定任务,包括策略规划、文献搜索、编码、机器人操作和实验室器具设计。 所有这些代理与人类相互作用,协同工作,以优化复杂材料的合成过程。

4.1.4科学辩论

LLM-MA可以设置为科学辩论场景,智能体之间相互辩论以增强集体推理能力,例如大规模多任务语言理解(MMLU)Hendrycks等人(2020),数学问题Cobbe 等人 (2021) 和 StrategyQA Geva 等人 (2021) 主要思想是,每个代理最初提供自己对问题的分析,然后进行联合辩论过程。 通过多轮辩论,特工们达成了一个一致的答案。 Du 等人 (2023) 在一组六种不同的推理和事实准确性任务上利用多智能体辩论过程,并证明 LLM-MA 辩论可以提高事实性。 Xiong等人(2023)专注于常识推理任务,并制定了符合现实场景的三阶段辩论,包括公平辩论、不匹配辩论和圆桌辩论。 论文还分析了不同大语言模型之间的相互一致性,并认为辩论可以提高相互一致性。 Tang等人(2023)还利用多个 LLM 代理人作为不同领域的专家,对医学报告进行协作讨论,以达成医学诊断共识。

4.2 LLM-MA世界模拟

LLM-MA的另一个主流应用场景是世界模拟。 该领域的研究正在迅速发展,涵盖社会科学、游戏、心理学、经济学、政策制定等多个领域。 在世界模拟中采用LLM-MA的关键原因在于其卓越的角色扮演能力,这对于真实地描绘模拟世界中的各种角色和观点至关重要。 世界模拟项目的环境通常是为了反映所模拟的特定场景而精心设计的,并以各种配置文件设计的代理来匹配该上下文。 与注重智能体合作的问题解决系统不同,世界模拟系统涉及多种智能体管理和通信方法,反映了现实世界交互的复杂性和多样性。 接下来,我们探索在不同领域进行的模拟。

4.2.1 社会模拟

在社会模拟中,LLM-MA模型用于模拟社会行为,旨在探索潜在的社会动态和传播,检验社会科学理论,并用现实的社会现象填充虚拟空间和社区Park等人(2023). 借助大语言模型的能力,具有独特特征的代理人进行广泛的沟通,生成丰富的行为数据以进行深入的社会科学分析。

随着时间的推移,社会模拟的规模不断扩大,从更小、更亲密的环境开始,逐渐发展到更大、更复杂的环境。 Park 等人 (2023) 的初步工作在类似于模拟人生的交互式沙箱环境中引入了生成代理,允许最终用户通过自然语言与由 25 个代理组成的适度社区进行互动。 同时,Park等人(2022)开发了Social Simulacra,构建了1000个角色的模拟社区。 该系统采用设计师对社区的愿景(其目标、规则和成员角色)并对其进行模拟,生成发帖、回复甚至反社会行为等行为。 在此基础上,Gao 等人 (2023a) 进一步深化了这一概念,构建了分别由 8,563 名和 17,945 名代理人组成的庞大网络,旨在模拟以性别歧视和核能为主题的社交网络。 这种演变展示了最近研究中模拟环境的复杂性和规模的不断增加。 最近的研究如Chen 等人 (2023b); Kaiya 等人 (2023); Li 等人 (2023a, f); Ziems 等人 (2023) 强调了多智能体系统不断演变的复杂性、大语言模型对社交网络的影响,以及它们与社会科学研究的融合。

4.2.2游戏

LLM-MA 非常适合创建模拟游戏环境,允许代理在游戏中承担各种角色。 该技术能够开发可控制的、可扩展的和动态的设置,非常模仿人类交互,使其成为测试一系列博弈论假设的理想选择 Mao 等人 (2023);徐等人(2023b) LLM-MA模拟的大多数游戏都严重依赖自然语言交流,在不同的游戏设置中提供沙盒环境,用于探索或测试博弈论假设,包括推理、合作、说服、欺骗、领导力等。

Akata 等人 (2023) 利用行为博弈论来检验大语言模型在互动社交环境中的行为,特别是它们在迭代囚徒困境和性别之战等游戏中的表现。 此外,Xu 等人 (2023b) 提出了一个使用 ChatArena 库 Wu 等人 (2023b) 的框架,用于在像狼人杀这样的交流游戏中使用大语言模型,使用检索和反思过去的改进沟通,以及思想链机制Wei 等人 (2022) Light 等人 (2023b) 探讨了大语言模型智能体在抵抗阿瓦隆中的潜力,介绍了 AVALONBENCH,这是一个综合性的游戏环境和基准,用于进一步开发先进的大语言模型和多智能体框架。 王等人(2023c)还重点研究了大语言模型Agent在阿瓦隆博弈中处理错误信息的能力,提出了递归思考(ReCon)框架来增强大语言模型智能体的识别和识别能力。抵制欺骗性信息。 Xu 等人 (2023c) 提出了一种将大语言模型与强化学习 (RL) 相结合的框架,用于开发狼人游戏的策略语言代理。 它引入了一种在动作和状态集不是预定义的而是在自然语言设置中的情况下使用强化学习策略的新方法。 Mukobi等人(2023)设计了“福利外交”,这是零和桌游外交的一般和变体,玩家必须平衡军事征服和国内福利。 它还提供了一个开源基准,旨在帮助提高多智能体人工智能系统的协作能力。 除此之外,还有一部作品李等人(2023c),在多智能体合作文本游戏中测试智能体的心理理论(ToM),即推理隐藏心理状态的能力他人的利益,是人类社会互动、协作和沟通的基础。 Fan等人(2023)全面评估了大语言模型作为理性参与者的能力,并指出了基于LLM的Agent的弱点,即即使在显式博弈过程中,Agent仍然可能忽略或修改细化信念采取行动时。

4.2.3心理学

在心理模拟研究中,就像在社会模拟中一样,利用多个代理来模拟具有各种特征和思维过程的人类。 然而,与社会模拟不同,心理学的一种方法涉及直接将心理实验应用于这些代理。 该方法侧重于通过统计方法观察和分析他们的不同行为。 在这里,每个智能体独立运作,不与其他智能体交互,本质上代表不同的个体。 另一种方法更符合社会模拟,其中多个代理相互交互和通信。 在这种情况下,应用心理学理论来理解和分析新出现的行为模式。 这种方法促进了人际动态和群体行为的研究,提供了关于个人心理特征如何影响集体行为的见解。 Ma 等人 (2023) 探讨了使用基于 LLM 的对话代理来提供心理健康支持的心理影响和结果。 它强调需要从心理学角度仔细评估基于 LLM 的代理在心理健康应用中的使用。 Kovač 等人 (2023) 介绍了一款名为 SocialAI school 的工具,用于创建模拟社交互动的交互环境。 它借鉴发展心理学来理解主体如何获得、展示和发展社交技能,例如共同注意力、沟通和文化学习。 Zhang 等人 (2023d) 探讨了具有独特特征和思维模式的大语言模型主体如何模仿类人的社会行为,例如从众和多数决定。 将心理学融入对代理协作的理解中,为检查和增强基于 LLM 的多代理系统背后的机制提供了一个新颖的视角。 Aher 等人 (2023) 引入图灵实验来评估大型语言模型模拟人类行为不同方面的程度。 图灵实验使用问答形式模仿实验条件,复制了心理学、经济学和社会学中的经典实验和现象。 他们还设计了一个提示,用于通过改变名字来模拟多个不同个体的反应。 通过大语言模型模拟各种个体,他们表明更大的模型更忠实地复制人类行为,但它们也揭示了超准确度的扭曲,特别是在基于知识的任务中。

Motivation Domain Datasets and Benchmarks Used by Data Link
Problem Solving Software Development HumanEval Hong et al. (2023) Link
MBPP Hong et al. (2023) Link
SoftwareDev Hong et al. (2023) Link
Embodied AI RoCoBench Mandi et al. (2023) Link
Communicative Watch-And-Help (C-WAH) Zhang et al. (2023c) Link
ThreeDWorld Multi-Agent Transport (TDW-MAT) Zhang et al. (2023c) Link
HM3D v0.2 Yu et al. (2023) Link
Science Debate MMLU Tang et al. (2023) Link
MedQA Tang et al. (2023) Link
PubMedQA Tang et al. (2023) Link
GSM8K Du et al. (2023) Link
StrategyQA Xiong et al. (2023) Link
Chess Move Validity Du et al. (2023) Link
World Simulation Society SOTOPIA Zhou et al. (2023b) /
Gender Discrimination Gao et al. (2023a) /
Nuclear Energy Gao et al. (2023a) /
Gaming Werewolf Xu et al. (2023b) /
Avalon Light et al. (2023b) /
Welfare Diplomacy Mukobi et al. (2023) /
Layout in the Overcooked-AI environment Agashe et al. (2023) /
Chameleon Xu et al. (2023a) Link
Undercover Xu et al. (2023a) Link
Psychology Ultimatum Game TE Aher et al. (2023) Link
Garden Path TE Aher et al. (2023) Link
Wisdom of Crowds TE Aher et al. (2023) Link
Recommender System MovieLens-1M Zhang et al. (2023a) Link
Amazon review dataset Zhang et al. (2023e) /
Policy Making Board Connectivity Evaluation Hua et al. (2023) Link
表2: LLM-MA 研究中常用的数据集和基准。 “/”表示数据链路不可用。

4.2.4经济

LLM-MA用于模拟经济和金融交易环境主要是因为它可以作为人类的隐式计算模型。 在这些模拟中,为代理人提供了禀赋和信息,并设置了预定义的偏好,从而可以探索他们在经济和金融背景下的行为。 这类似于经济学家对“经济人”的建模方式,即在一些经济理论中将人描述为一个为了自身利益而追求财富的理性人Horton (2023) 有几项研究证明了 LLM-MA 在模拟经济场景方面的多种应用,包括宏观经济活动、信息市场、金融交易和虚拟城镇模拟。 代理在合作或辩论、分散的环境中进行交互。 Li 等人 (2023e) 采用大语言模型进行宏观经济模拟,具有模拟人类决策的即时工程驱动代理,从而与基于规则或基于规则的经济模拟相比,增强了经济模拟的真实性其他人工智能代理。 Anonymous (2023) 探讨了信息市场中买方的检查悖论,揭示了代理商在购买前临时访问信息时决策和答案质量的改进。 Li等人(2023g)提出了金融交易的LLM-MA框架,强调分层记忆系统、辩论机制和个性化交易特征,从而增强决策的稳健性。 Zhao 等人 (2023) 利用基于 LLM 的代理来模拟具有餐厅和客户代理的虚拟城镇,产生与社会学和经济理论相一致的见解。 这些研究共同阐明了大语言模型在不同经济模拟场景中的广泛应用和进步。

4.2.5 推荐系统

LLM-MA 在推荐系统中的应用与心理学中的应用类似,因为这两个领域的研究都涉及考虑外在和内在的人类因素,例如认知过程和个性Lex 和 Schedl (2022) 在推荐系统中使用 LLM-MA 的一种方法是直接向多个基于 LLM 的具有不同特征的代理引入项目,并对不同代理的偏好进行统计。 另一种方法是将用户和项目都视为代理,并将用户与项目的通信视为交互,模拟偏好传播。 为了弥合推荐系统中离线指标与实际性能之间的差距,Agent4Rec Zhang 等人 (2023a) 引入了基于 LLM-MA 的模拟平台。 使用 MovieLens-1M 数据集初始化 1000 个生成代理,以模拟推荐环境中复杂的用户交互。 Agent4Rec 表明,LLM-MA 可以有效地模仿真实的用户偏好和行为,提供对过滤气泡效应等现象的洞察,并帮助揭示推荐任务中的因果关系。 在Agent4Rec工作中,代理被用来模拟用户,并且他们之间不进行通信。 与 Agent4Rec 的工作不同,Zhang 等人 (2023e) 将用户和项目都视为代理,对它们进行集体优化以反映和调整现实世界的交互差异。 这项工作强调模拟用户-项目交互并在代理之间传播偏好,捕捉协同过滤的本质。

4.2.6政策制定

与游戏和经济场景中的模拟类似,政策制定需要强大的决策能力来应对现实和动态的复杂问题。 LLM-MA可以通过模拟虚拟政府或模拟各种政策对不同社区的影响来模拟政策制定。 这些模拟为政策制定方式及其潜在影响提供了宝贵的见解,帮助政策制定者理解和预测其决策的后果Farmer 和 Axtell (2022) Xiao 等人 (2023) 中概述的研究主要是模拟乡镇水污染危机。 它模拟了一个位于岛上的城镇,包括不同代理人、镇长和顾问的人口结构。 在水污染危机模拟中,这项工作深入分析了虚拟政府实体如何应对此类公共管理挑战以及这场危机中社交网络中的信息如何传递。 Hua 等人 (2023) 引入 WarAgent 来模拟关键的历史冲突,并为冲突解决和理解提供见解,在预防未来国际冲突方面具有潜在应用。

4.2.7疾病传播模拟

利用LLM-MA的社会模拟功能也可用于模拟疾病传播。 Williams 等人 (2023) 中的最新研究深入探讨了 LLM-MA 在模拟疾病传播中的用途。 该研究通过各种模拟展示了这些基于 LLM 的代理如何准确模拟人类对疾病爆发的反应,包括在病例数量增加期间进行自我隔离和隔离等行为。 这些病原体的集体行为反映了流行病中常见的多重波的复杂模式,最终稳定为地方性流行状态。 令人印象深刻的是,他们的行动有助于疫情曲线的衰减。 Ghaffarzadegan 等人 (2023) 还讨论了流行病传播模拟,并将模拟分解为两部分:代表病毒信息或传播的机制模型和代表代理的决策模型面对病毒时的决策过程。

5实施工具和资源

5.1 多代理框架

我们详细介绍了三个开源多智能体框架:MetaGPT Hong 等人 (2023)、CAMEL Li 等人 (2023b) 和 Autogen 吴等人(2023a) 它们都是利用语言模型来解决复杂任务的框架,重点是多智能体协作,但它们的方法和应用程序有所不同。

MetaGPT 旨在将人类工作流程嵌入到语言模型代理的操作中,从而减少复杂任务中经常出现的幻觉问题。 它通过将标准操作程序编码到系统中并使用装配线方法将特定角色分配给不同的代理来实现这一点。

CAMEL(即通信代理框架)旨在促进代理之间的自主合作。 它使用一种称为初始提示的新技术来引导会话代理完成与人类目标一致的任务。 该框架还可以作为生成和研究对话数据的工具,帮助研究人员了解交流主体的行为和交互方式。

AutoGen 是一个多功能框架,允许使用语言模型创建应用程序。 它的独特之处在于其高度定制化,使开发人员能够使用自然语言和代码对代理进行编程,以定义这些代理如何交互。 这种多功能性使其能够在不同领域使用,从编码和数学等技术领域到娱乐等以消费者为中心的领域。

最近,Chen 等人 (2023c, a) 引入了动态多智能体协作框架,而 Zhou 等人 (2023a);李 等人 (2023h); Xie 等人 (2023) 提出了用于构建自主代理的平台和库,强调它们在任务解决和社交模拟中的适应性。

5.2 数据集和基准

我们在表2中总结了LLM-MA研究常用的数据集或基准。 我们观察到不同的研究应用使用不同的数据集和基准。 在问题解决场景中,大多数数据集和基准用于通过多个智能体合作或辩论来评估规划和推理能力。 在世界模拟场景中,数据集和基准用于评估模拟世界与现实世界之间的一致性或分析不同代理的行为。 然而,在某些研究应用中,例如科学团队的实验操作和经济建模,仍然需要全面的基准。 此类基准的开发将极大地提高衡量 LLM-MA 在这些复杂和动态领域的成功和适用性的能力。

6挑战与机遇

LLM-MA框架和应用的研究正在迅速推进,带来了众多的挑战和机遇。 我们确定了未来研究的几个关键挑战和潜在领域。

6.1 进入多模式环境

之前大多数 LLM-MA 的工作都集中在基于文本的环境,擅长处理和生成文本。 然而,多模式设置明显缺乏,在多模式设置中,代理将与多个感官输入交互并解释来自多个感官输入的数据,并生成多个输出,例如图像、音频、视频和物理动作。 将大语言模型集成到多模式环境中会带来额外的挑战,例如处理不同的数据类型以及使代理能够相互理解并不仅仅响应文本信息。

6.2 解决幻觉

幻觉问题是大语言模型和基于LLM的单一Agent系统中的一个重大挑战。 指模型生成的文本与事实不符的现象Huang 等人(2023b) 然而,这个问题在多智能体环境中会变得更加复杂。 在这种情况下,一名特工的幻觉可能会产生连锁效应。 这是由于多代理系统的互连性质,来自一个代理的错误信息可以被网络中的其他代理接受并进一步传播。 因此,检测和减轻 LLM-MA 中的幻觉不仅是一项关键任务,而且还提出了一系列独特的挑战。 它不仅涉及纠正单个代理级别的错误,还涉及管理代理之间的信息流,以防止这些错误在整个系统中传播。

6.3 获取集体智慧

在传统的多智能体系统中,智能体通常使用强化学习从离线训练数据集中学习。 然而,LLM-MA 系统主要从即时反馈中学习,例如与环境或人类的交互,正如我们在第 3 节中讨论的那样。 这种学习方式需要一个可靠的交互环境,为许多任务设计这样的交互环境会很棘手,限制了LLM-MA系统的可扩展性。 此外,当前研究中流行的方法涉及采用记忆和自我进化技术来根据反馈调整代理。 虽然这些方法对个体代理有效,但并没有充分利用代理网络的潜在集体智慧。 他们孤立地调整代理,忽略了协调的多代理交互可能产生的协同效应。 因此,联合调整多个智能体并实现最佳的集体智慧仍然是LLM-MA的关键挑战。

6.4 扩大LLM-MA系统

LLM-MA 系统由许多单独的基于 LLM 的代理组成,这对代理数量的可扩展性提出了重大挑战。 从计算复杂性的角度来看,每个基于 LLM 的代理通常构建在 GPT-4 等大型语言模型上,需要大量的计算能力和内存。 扩大 LLM-MA 系统中这些代理的数量会显着增加资源需求。 在计算资源有限的情况下,开发这些 LLM-MA 系统将具有挑战性。

此外,随着 LLM-MA 系统中代理数量的增加,会出现额外的复杂性和研究机会,特别是在高效代理协调、通信和理解多代理缩放定律等领域。 例如,随着越来越多的 LLM 代理人的出现,确保有效协调和沟通的复杂性显着增加。 正如 Dibia (2023) 中强调的那样,设计先进的代理编排方法变得越来越重要。 这些方法旨在优化代理工作流程、针对不同代理定制的任务分配以及代理之间的通信模式,例如代理之间的通信约束。 有效的代理协调有利于代理之间的和谐运作,最大限度地减少冲突和冗余。 此外,随着多智能体系统规模的扩大,探索和定义控制多智能体系统的行为和效率的缩放法则仍然是一个重要的研究领域。 这些方面凸显了对优化 LLM-MA 系统的创新解决方案的需求,使其既有效又节约资源。

6.5评估和基准

我们在表2中总结了目前可用于LLM-MA的数据集和基准。 这只是一个起点,远非全面。 我们确定了评估 LLM-MA 系统并对其性能进行相互比较的两个重大挑战。 首先,正如 Xu 等人 (2023a) 中所讨论的,现有的大部分研究都集中在评估个体代理在狭义场景中的理解和推理。 这种关注往往忽视了多智能体系统中更广泛、更复杂的紧急行为。 其次,跨多个研究领域(例如实验操作科学团队、经济分析和疾病传播模拟)的综合基准的开发存在明显不足。 这一差距给准确评估和基准化 LLM-MA 系统在这些不同的关键领域的全部能力带来了障碍。

6.6 应用及其他

LLM-MA系统的潜力远远超出了其当前的应用范围,为金融、教育、医疗保健、环境科学、城市规划等领域的高级计算问题解决带来了巨大的希望。 正如我们所讨论的,LLM-MA 系统具有解决复杂问题和模拟现实世界各个方面的能力。 虽然目前大语言模型的角色扮演能力可能存在局限性,但大语言模型技术的不断进步预示着光明的未来。 预计它将拥有针对不同研究领域量身定制的更复杂的方法、应用程序、数据集和基准。 此外,还有机会从各种理论角度探索LLM-MA系统,例如认知科学Sumers等人(2023)、符号人工智能、控制论、复杂系统和集体智能。 这种多方面的方法可以有助于对这个快速发展的领域进行更全面的理解和创新应用。

7结论

基于 LLM 的多智能体已经表现出了鼓舞人心的集体智慧,并迅速引起了研究人员越来越多的兴趣。 在本次调查中,我们首先系统地回顾了LLM-MA系统的发展,从代理-环境接口、大语言模型对代理的表征、管理代理通信的策略和管理代理的策略等方面对LLM-MA系统进行了定位、区分和连接。能力获取的范式。 我们还总结了 LLM-MA 在解决问题和世界模拟方面的应用。 通过强调常用的数据集和基准并讨论挑战和未来的机遇,我们希望这项调查能够为各个研究领域的研究人员提供有用的资源,激发未来的研究探索基于 LLM 的多智能体的潜力。

参考

  • Agashe et al. [2023] Saaket Agashe, Yue Fan, and Xin Eric Wang. Evaluating multi-agent coordination abilities in large language models, 2023.
  • Aher et al. [2023] Gati Aher, Rosa I. Arriaga, and Adam Tauman Kalai. Using large language models to simulate multiple humans and replicate human subject studies, 2023.
  • Akata et al. [2023] Elif Akata, Lion Schulz, Julian Coda-Forno, Seong Joon Oh, Matthias Bethge, and Eric Schulz. Playing repeated games with large language models. arXiv preprint arXiv:2305.16867, 2023.
  • Anonymous [2023] Anonymous. Rethinking the buyer’s inspection paradox in information markets with language agents. In Submitted to The Twelfth International Conference on Learning Representations, 2023. under review.
  • Chan et al. [2023] Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, and Zhiyuan Liu. Chateval: Towards better llm-based evaluators through multi-agent debate, 2023.
  • Chen et al. [2023a] Guangyao Chen, Siwei Dong, Yu Shu, Ge Zhang, Jaward Sesay, Börje F Karlsson, Jie Fu, and Yemin Shi. Autoagents: A framework for automatic agent generation. arXiv preprint arXiv:2309.17288, 2023.
  • Chen et al. [2023b] Huaben Chen, Wenkang Ji, Lufeng Xu, and Shiyu Zhao. Multi-agent consensus seeking via large language models. arXiv preprint arXiv:2310.20151, 2023.
  • Chen et al. [2023c] Weize Chen, Yusheng Su, Jingwei Zuo, Cheng Yang, Chenfei Yuan, Chen Qian, Chi-Min Chan, Yujia Qin, Yaxi Lu, Ruobing Xie, et al. Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents. arXiv preprint arXiv:2308.10848, 2023.
  • Chen et al. [2023d] Yongchao Chen, Jacob Arkin, Yang Zhang, Nicholas Roy, and Chuchu Fan. Scalable multi-robot collaboration with large language models: Centralized or decentralized systems? arXiv preprint arXiv:2309.15943, 2023.
  • Cobbe et al. [2021] Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.
  • Dasgupta et al. [2023] Ishita Dasgupta, Christine Kaeser-Chen, Kenneth Marino, Arun Ahuja, Sheila Babayan, Felix Hill, and Rob Fergus. Collaborating with language models for embodied reasoning. arXiv preprint arXiv:2302.00763, 2023.
  • Dibia [2023] Victor Dibia. Multi-agent llm applications — a review of current research, tools, and challenges. https://newsletter.victordibia.com/p/multi-agent-llm-applications-a-review, 2023.
  • Dong et al. [2023a] Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li, and Zhifang Sui. A survey on in-context learning, 2023.
  • Dong et al. [2023b] Yihong Dong, Xue Jiang, Zhi Jin, and Ge Li. Self-collaboration code generation via chatgpt, 2023.
  • Du et al. [2023] Yilun Du, Shuang Li, Antonio Torralba, Joshua B. Tenenbaum, and Igor Mordatch. Improving factuality and reasoning in language models through multiagent debate, 2023.
  • Fan et al. [2023] Caoyun Fan, Jindou Chen, Yaohui Jin, and Hao He. Can large language models serve as rational players in game theory? a systematic analysis. arXiv preprint arXiv:2312.05488, 2023.
  • Farmer and Axtell [2022] J. Doyne Farmer and Robert L. Axtell. Agent-Based Modeling in Economics and Finance: Past, Present, and Future. INET Oxford Working Papers 2022-10, Institute for New Economic Thinking at the Oxford Martin School, University of Oxford, June 2022.
  • Gao et al. [2023a] Chen Gao, Xiaochong Lan, Zhihong Lu, Jinzhu Mao, Jinghua Piao, Huandong Wang, Depeng Jin, and Yong Li. S3: Social-network simulation system with large language model-empowered agents. arXiv preprint arXiv:2307.14984, 2023.
  • Gao et al. [2023b] Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, and Haofen Wang. Retrieval-augmented generation for large language models: A survey. arXiv preprint arXiv:2312.10997, 2023.
  • Geva et al. [2021] Mor Geva, Daniel Khashabi, Elad Segal, Tushar Khot, Dan Roth, and Jonathan Berant. Did aristotle use a laptop? a question answering benchmark with implicit reasoning strategies, 2021.
  • Ghaffarzadegan et al. [2023] Navid Ghaffarzadegan, Aritra Majumdar, Ross Williams, and Niyousha Hosseinichimeh. Generative agent-based modeling: Unveiling social system dynamics through coupling mechanistic models with generative artificial intelligence. arXiv preprint arXiv:2309.11456, 2023.
  • Guo et al. [2023] Taicheng Guo, Kehan Guo, Zhengwen Liang, Zhichun Guo, Nitesh V Chawla, Olaf Wiest, Xiangliang Zhang, et al. What indeed can gpt models do in chemistry? a comprehensive benchmark on eight tasks. arXiv preprint arXiv:2305.18365, 2023.
  • Hendrycks et al. [2020] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.
  • Hong et al. [2023] Sirui Hong, Xiawu Zheng, Jonathan Chen, Yuheng Cheng, Ceyao Zhang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, et al. Metagpt: Meta programming for multi-agent collaborative framework. arXiv preprint arXiv:2308.00352, 2023.
  • Horton [2023] John J Horton. Large language models as simulated economic agents: What can we learn from homo silicus? Technical report, National Bureau of Economic Research, 2023.
  • Hua et al. [2023] Wenyue Hua, Lizhou Fan, Lingyao Li, Kai Mei, Jianchao Ji, Yingqiang Ge, Libby Hemphill, and Yongfeng Zhang. War and peace (waragent): Large language model-based multi-agent simulation of world wars, 2023.
  • Huang et al. [2023a] Dong Huang, Qingwen Bu, Jie M. Zhang, Michael Luck, and Heming Cui. Agentcoder: Multi-agent-based code generation with iterative testing and optimisation, 2023.
  • Huang et al. [2023b] Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, et al. A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. arXiv preprint arXiv:2311.05232, 2023.
  • Kaiya et al. [2023] Zhao Kaiya, Michelangelo Naim, Jovana Kondic, Manuel Cortes, Jiaxin Ge, Shuying Luo, Guangyu Robert Yang, and Andrew Ahn. Lyfe agents: Generative agents for low-cost real-time social interactions. arXiv preprint arXiv:2310.02172, 2023.
  • Khot et al. [2023] Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, and Ashish Sabharwal. Decomposed prompting: A modular approach for solving complex tasks, 2023.
  • Kovač et al. [2023] Grgur Kovač, Rémy Portelas, Peter Ford Dominey, and Pierre-Yves Oudeyer. The socialai school: Insights from developmental psychology towards artificial socio-cultural agents. arXiv preprint arXiv:2307.07871, 2023.
  • Lewis et al. [2021] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen tau Yih, Tim Rocktäschel, Sebastian Riedel, and Douwe Kiela. Retrieval-augmented generation for knowledge-intensive nlp tasks, 2021.
  • Lex and Schedl [2022] Elisabeth Lex and Markus Schedl. Psychology-informed recommender systems: A human-centric perspective on recommender systems. In Proceedings of the 2022 Conference on Human Information Interaction and Retrieval, CHIIR ’22, page 367–368, New York, NY, USA, 2022. Association for Computing Machinery.
  • Li et al. [2023a] Chao Li, Xing Su, Chao Fan, Haoying Han, Cong Xue, and Chunmo Zheng. Quantifying the impact of large language models on collective opinion dynamics. arXiv preprint arXiv:2308.03313, 2023.
  • Li et al. [2023b] Guohao Li, Hasan Abed Al Kader Hammoud, Hani Itani, Dmitrii Khizbullin, and Bernard Ghanem. Camel: Communicative agents for” mind” exploration of large scale language model society. arXiv preprint arXiv:2303.17760, 2023.
  • Li et al. [2023c] Huao Li, Yu Quan Chong, Simon Stepputtis, Joseph Campbell, Dana Hughes, Michael Lewis, and Katia Sycara. Theory of mind for multi-agent collaboration via large language models, 2023.
  • Li et al. [2023d] Minghao Li, Yingxiu Zhao, Bowen Yu, Feifan Song, Hangyu Li, Haiyang Yu, Zhoujun Li, Fei Huang, and Yongbin Li. Api-bank: A comprehensive benchmark for tool-augmented llms, 2023.
  • Li et al. [2023e] Nian Li, Chen Gao, Yong Li, and Qingmin Liao. Large language model-empowered agents for simulating macroeconomic activities, 2023.
  • Li et al. [2023f] Siyu Li, Jin Yang, and Kui Zhao. Are you in a masquerade? exploring the behavior and impact of large language model driven social bots in online social networks. arXiv preprint arXiv:2307.10337, 2023.
  • Li et al. [2023g] Yang Li, Yangyang Yu, Haohang Li, Zhi Chen, and Khaldoun Khashanah. Tradinggpt: Multi-agent system with layered memory and distinct characters for enhanced financial trading performance, 2023.
  • Li et al. [2023h] Yuan Li, Yixuan Zhang, and Lichao Sun. Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents. arXiv preprint arXiv:2310.06500, 2023.
  • Liang et al. [2023] Zhenwen Liang, Wenhao Yu, Tanmay Rajpurohit, Peter Clark, Xiangliang Zhang, and Ashwin Kaylan. Let gpt be a math tutor: Teaching math word problem solvers with customized exercise generation. arXiv preprint arXiv:2305.14386, 2023.
  • Light et al. [2023a] Jonathan Light, Min Cai, Sheng Shen, and Ziniu Hu. Avalonbench: Evaluating llms playing the game of avalon, 2023.
  • Light et al. [2023b] Jonathan Light, Min Cai, Sheng Shen, and Ziniu Hu. From text to tactic: Evaluating llms playing the game of avalon. arXiv preprint arXiv:2310.05036, 2023.
  • Liu et al. [2023] Zijun Liu, Yanzhe Zhang, Peng Li, Yang Liu, and Diyi Yang. Dynamic llm-agent network: An llm-agent collaboration framework with agent team optimization. arXiv preprint arXiv:2310.02170, 2023.
  • Ma et al. [2023] Zilin Ma, Yiyang Mei, and Zhaoyuan Su. Understanding the benefits and challenges of using large language model-based conversational agents for mental well-being support. arXiv preprint arXiv:2307.15810, 2023.
  • Mandi et al. [2023] Zhao Mandi, Shreeya Jain, and Shuran Song. Roco: Dialectic multi-robot collaboration with large language models. arXiv preprint arXiv:2307.04738, 2023.
  • Mao et al. [2023] Shaoguang Mao, Yuzhe Cai, Yan Xia, Wenshan Wu, Xun Wang, Fengyi Wang, Tao Ge, and Furu Wei. Alympics: Language agents meet game theory. arXiv preprint arXiv:2311.03220, 2023.
  • Moura [2023] João Moura. Crewai. https://github.com/joaomdmoura/crewAI, 2023.
  • Mukobi et al. [2023] Gabriel Mukobi, Hannah Erlebach, Niklas Lauffer, Lewis Hammond, Alan Chan, and Jesse Clifton. Welfare diplomacy: Benchmarking language model cooperation. arXiv preprint arXiv:2310.08901, 2023.
  • Nascimento et al. [2023] Nathalia Nascimento, Paulo Alencar, and Donald Cowan. Self-adaptive large language model (llm)-based multiagent systems. In 2023 IEEE International Conference on Autonomic Computing and Self-Organizing Systems Companion (ACSOS-C), pages 104–109. IEEE, 2023.
  • Park et al. [2022] Joon Sung Park, Lindsay Popowski, Carrie Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. Social simulacra: Creating populated prototypes for social computing systems. In Proceedings of the 35th Annual ACM Symposium on User Interface Software and Technology, pages 1–18, 2022.
  • Park et al. [2023] Joon Sung Park, Joseph C O’Brien, Carrie J Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. Generative agents: Interactive simulacra of human behavior. arXiv preprint arXiv:2304.03442, 2023.
  • Qian et al. [2023] Chen Qian, Xin Cong, Wei Liu, Cheng Yang, Weize Chen, Yusheng Su, Yufan Dang, Jiahao Li, Juyuan Xu, Dahai Li, Zhiyuan Liu, and Maosong Sun. Communicative agents for software development, 2023.
  • Ruan et al. [2023] Jingqing Ruan, Yihong Chen, Bin Zhang, Zhiwei Xu, Tianpeng Bao, Guoqing Du, Shiwei Shi, Hangyu Mao, Ziyue Li, Xingyu Zeng, and Rui Zhao. Tptu: Large language model-based ai agents for task planning and tool usage, 2023.
  • Russell and Norvig [2009] Stuart Russell and Peter Norvig. Artificial Intelligence: A Modern Approach. Prentice Hall Press, USA, 3rd edition, 2009.
  • Shinn et al. [2023] Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. Reflexion: Language agents with verbal reinforcement learning, 2023.
  • Sumers et al. [2023] Theodore R Sumers, Shunyu Yao, Karthik Narasimhan, and Thomas L Griffiths. Cognitive architectures for language agents. arXiv preprint arXiv:2309.02427, 2023.
  • Tang et al. [2023] Xiangru Tang, Anni Zou, Zhuosheng Zhang, Yilun Zhao, Xingyao Zhang, Arman Cohan, and Mark Gerstein. Medagents: Large language models as collaborators for zero-shot medical reasoning, 2023.
  • Wang et al. [2021] Zijie J. Wang, Dongjin Choi, Shenyu Xu, and Diyi Yang. Putting humans in the natural language processing loop: A survey, 2021.
  • Wang et al. [2023a] Kuan Wang, Yadong Lu, Michael Santacroce, Yeyun Gong, Chao Zhang, and Yelong Shen. Adapting llm agents through communication, 2023.
  • Wang et al. [2023b] Lei Wang, Chen Ma, Xueyang Feng, Zeyu Zhang, Hao Yang, Jingsen Zhang, Zhiyuan Chen, Jiakai Tang, Xu Chen, Yankai Lin, Wayne Xin Zhao, Zhewei Wei, and Ji-Rong Wen. A survey on large language model based autonomous agents, 2023.
  • Wang et al. [2023c] Shenzhi Wang, Chang Liu, Zilong Zheng, Siyuan Qi, Shuo Chen, Qisen Yang, Andrew Zhao, Chaofei Wang, Shiji Song, and Gao Huang. Avalon’s game of thoughts: Battle against deception through recursive contemplation. arXiv preprint arXiv:2310.01320, 2023.
  • Wei et al. [2022] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022.
  • Weng [2023] Lilian Weng. Llm powered autonomous agents. https://lilianweng.github.io/posts/2023-06-23-agent/, 2023.
  • Williams et al. [2023] Ross Williams, Niyousha Hosseinichimeh, Aritra Majumdar, and Navid Ghaffarzadegan. Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986, 2023.
  • Wooldridge and Jennings [1995] Michael Wooldridge and Nicholas R. Jennings. Intelligent agents: theory and practice. The Knowledge Engineering Review, 10:115 – 152, 1995.
  • Wu et al. [2023a] Qingyun Wu, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang, and Chi Wang. Autogen: Enabling next-gen llm applications via multi-agent conversation framework. arXiv preprint arXiv:2308.08155, 2023.
  • Wu et al. [2023b] Yuxiang Wu, Zhengyao Jiang, Akbir Khan, Yao Fu, Laura Ruis, Edward Grefenstette, and Tim Rocktäschel. Chatarena: Multi-agent language game environments for large language models. GitHub repository, 2023.
  • Xi et al. [2023] Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, and Tao Gui. The rise and potential of large language model based agents: A survey, 2023.
  • Xiao et al. [2023] Bushi Xiao, Ziyuan Yin, and Zixuan Shan. Simulating public administration crisis: A novel generative agent-based simulation system to lower technology barriers in social science research. arXiv preprint arXiv:2311.06957, 2023.
  • Xie et al. [2023] Tianbao Xie, Fan Zhou, Zhoujun Cheng, Peng Shi, Luoxuan Weng, Yitao Liu, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, et al. Openagents: An open platform for language agents in the wild. arXiv preprint arXiv:2310.10634, 2023.
  • Xiong et al. [2023] Kai Xiong, Xiao Ding, Yixin Cao, Ting Liu, and Bing Qin. Examining inter-consistency of large language models collaboration: An in-depth analysis via debate, 2023.
  • Xu et al. [2023a] Lin Xu, Zhiyuan Hu, Daquan Zhou, Hongyu Ren, Zhen Dong, Kurt Keutzer, See Kiong Ng, and Jiashi Feng. Magic: Investigation of large language model powered multi-agent in cognition, adaptability, rationality and collaboration, 2023.
  • Xu et al. [2023b] Yuzhuang Xu, Shuo Wang, Peng Li, Fuwen Luo, Xiaolong Wang, Weidong Liu, and Yang Liu. Exploring large language models for communication games: An empirical study on werewolf. arXiv preprint arXiv:2309.04658, 2023.
  • Xu et al. [2023c] Zelai Xu, Chao Yu, Fei Fang, Yu Wang, and Yi Wu. Language agents with reinforcement learning for strategic play in the werewolf game. arXiv preprint arXiv:2310.18940, 2023.
  • Yao et al. [2023] Shunyu Yao, Dian Yu, Jeffrey Zhao, Izhak Shafran, Thomas L. Griffiths, Yuan Cao, and Karthik Narasimhan. Tree of thoughts: Deliberate problem solving with large language models, 2023.
  • Yu et al. [2023] Bangguo Yu, Hamidreza Kasaei, and Ming Cao. Co-navgpt: Multi-robot cooperative visual semantic navigation using large language models, 2023.
  • Zhang et al. [2023a] An Zhang, Leheng Sheng, Yuxin Chen, Hao Li, Yang Deng, Xiang Wang, and Tat-Seng Chua. On generative agents in recommendation, 2023.
  • Zhang et al. [2023b] Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, et al. Proagent: Building proactive cooperative ai with large language models. arXiv preprint arXiv:2308.11339, 2023.
  • Zhang et al. [2023c] Hongxin Zhang, Weihua Du, Jiaming Shan, Qinhong Zhou, Yilun Du, Joshua B Tenenbaum, Tianmin Shu, and Chuang Gan. Building cooperative embodied agents modularly with large language models. arXiv preprint arXiv:2307.02485, 2023.
  • Zhang et al. [2023d] Jintian Zhang, Xin Xu, and Shumin Deng. Exploring collaboration mechanisms for llm agents: A social psychology view, 2023.
  • Zhang et al. [2023e] Junjie Zhang, Yupeng Hou, Ruobing Xie, Wenqi Sun, Julian McAuley, Wayne Xin Zhao, Leyu Lin, and Ji-Rong Wen. Agentcf: Collaborative learning with autonomous language agents for recommender systems, 2023.
  • Zhao et al. [2023] Qinlin Zhao, Jindong Wang, Yixuan Zhang, Yiqiao Jin, Kaijie Zhu, Hao Chen, and Xing Xie. Competeai: Understanding the competition behaviors in large language model-based agents, 2023.
  • Zheng et al. [2023] Zhiling Zheng, Oufan Zhang, Ha L. Nguyen, Nakul Rampal, Ali H. Alawadhi, Zichao Rong, Teresa Head-Gordon, Christian Borgs, Jennifer T. Chayes, and Omar M. Yaghi. Chatgpt research group for optimizing the crystallinity of mofs and cofs. ACS Central Science, 9(11):2161–2170, 2023.
  • Zhou et al. [2023a] Wangchunshu Zhou, Yuchen Eleanor Jiang, Long Li, Jialong Wu, Tiannan Wang, Shi Qiu, Jintian Zhang, Jing Chen, Ruipu Wu, Shuai Wang, et al. Agents: An open-source framework for autonomous language agents. arXiv preprint arXiv:2309.07870, 2023.
  • Zhou et al. [2023b] Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, and Maarten Sap. Sotopia: Interactive evaluation for social intelligence in language agents, 2023.
  • Ziems et al. [2023] Caleb Ziems, Omar Shaikh, Zhehao Zhang, William Held, Jiaao Chen, and Diyi Yang. Can large language models transform computational social science? Computational Linguistics, pages 1–53, 2023.