世界模型是灵活,目标指导行为的必要成分,还是无模型的学习足够?我们为这个问题提供了正式的答案,表明任何能够推广到多步目标指导任务的代理都必须学会了其环境的预测模型。我们表明,可以从代理商的政策中提取该模型,并提高代理商的绩效或可以实现的目标的复杂性,需要学习越来越准确的世界模型。这会带来许多后果:从开发安全和一般的代理到复杂环境中的边界代理能力,再到为启发代理的世界模型提供新的算法 ...
代理增强学习的出现(代理RL)标志着从应用于大型语言模型(LLM RL)的常规强化学习的范式转变,将LLM从被动序列发生器转化为嵌入在复杂,动态世界中的自主决策的机构。这项调查通过将LLM-RL的退化单步马尔可夫决策过程(MDP)与定义代理RL的时间扩展的,部分可观察到的马尔可夫决策过程(POMDP)形式化了这一概念转移。在这个基础的基础上,我们提出了一个全面的双重分类法:一个围绕核心代理能力组织 ...
检索增强的生成(RAG)系统通过合并外部知识来改善大型语言模型输出,从而实现更多知识和背景感知的响应。但是,这些系统的有效性和可信赖性在很大程度上取决于它们的评估方式,特别是评估过程是否捕获了诸如保护敏感信息之类的现实世界约束。尽管当前对抹布系统的评估工作主要集中在绩效指标的发展上,但尽管在实现有意义的,可靠的评估方面的角色关注,但对基础评估数据集的设计和质量的关注得多 ...
由于物理世界的复杂性,为具体任务奠定大型语言模型 (LLM) 的推理能力具有挑战性。特别是,针对多智能体协作的LLM规划需要智能体的沟通或学分分配作为反馈,以重新调整拟议的计划并实现有效的协调。然而,现有的方法过度依赖物理验证或自我反思,导致 LLM 查询过多且效率低下 ...
大型语言模型(LLM)已成为推理,计划和决策的组成工具,借鉴了他们广泛的世界知识和与语言相关的任务的熟练程度。因此,LLM在多代理系统中具有巨大的自然语言互动,以促进合作。但是,LLM代理人倾向于过度报告并遵守任何指令,这可能会导致多机构合作中的信息冗余和混乱 ...
大型语言模型(LLMS)具有广泛的知识库和强大的推理能力,使它们成为有前途的工具,可在具体的环境中进行复杂的多代理计划。然而,尽管LLM的高级能力和代理方法的复杂模块化设计,但现有的基于LLM的计划算法仍受到对多代理体现场景的弱适应能力的限制。我们通过引入一个框架来解决这一限制,该框架使LLM代理能够在测试时间之前和期间学习和发展,从而为他们提供与环境相关的知识,以进行更好的计划和增强沟通以改善合 ...
空间认知可以通过构建内部空间模型来实现自适应目标指导的行为。强大的生物系统将空间知识合并为三种相互联系的形式:\ textIt {Landmarks},用于显着提示,\ textit {Route {Route {Route {Route {Route {Route {Route {Route {Route {Reversition {调查知识}用于地图式表示。尽管多模式大语言模型(MLLM)的最 ...
多模式的大语言模型正在发展为能够主动执行任务的多模式代理。大多数代理研究的重点是GUI或体现的场景,这些场景分别与与2D虚拟世界或3D现实世界相互作用的代理相对应。但是,许多复杂的任务通常要求代理与这两种类型的环境交流 ...