视觉语言模型(VLM)的最新进展显着增强了其处理复杂的图形用户界面(GUI)交互任务的能力。尽管有这些改进,但当前的框架通常很难在挑战性的GUI环境中产生正确的行动。最先进的商业VLM是黑盒,用于GUI任务的微调开源VLM需要大量资源 ...
大型语言模型(LLM)越来越多地用作多步任务的自主剂。但是,大多数现有的框架无法维持对任务状态的结构化理解,通常依靠线性提示串联或浅内存缓冲区。这会导致脆弱的性能,频繁的幻觉和远距离连贯性 ...
GUI代理具有巨大的潜力,可以增强人类磁场相互作用的经验和效率。但是,当前的方法在跨应用程序(应用程序)和任务概括方面面临挑战,这主要是由于现有数据集中的两个基本限制。首先,这些数据集忽略了开发人员引起的应用程序之间的结构变化,从而限制了知识在各种软件环境中的可传递性 ...
大型语言模型(LLM)的最新进步基于基于多代理系统(MAS),在解决复杂的决策任务方面具有巨大的潜力。但是,现有的框架不可避免地依赖于序列化执行范式,在采取行动之前,代理必须在该范围内完成顺序的LLM计划。这种基本的约束严重限制了实时响应能力和适应性,这在不断变化的情况下的动态环境中至关重要 ...
通过在测试时间里利用更多的计算资源,大型语言模型(LLMS)可以在没有其他培训的情况下改进。一种常见的策略使用验证者评估候选输出。在这项工作中,我们为测试时间计算提出了一个新颖的缩放维度:缩放验证者的数量 ...
大型语言模型(LLM)的快速发展促进了多机构系统的开发,其中多个基于LLM的代理协作以解决复杂的任务。但是,现有系统主要依赖于集中协调,该协调引入了可扩展性瓶颈,限制适应性并创建单点故障。此外,对隐私和专有知识共享的担忧阻碍了跨组织合作,从而导致了孤立的专业知识 ...
多代理增强学习(MARL)中有效的沟通协议对于促进合作和提高团队绩效至关重要。为了利用沟通,许多以前的作品建议将本地信息压缩到一条消息中,并将其广播给所有可及的代理。但是,这种简单的消息传递机制可能无法为个体代理提供足够,关键和相关的信息,尤其是在严重带宽有限的方案中 ...
机间通信的各种应用正在上升。无论是用于自动驾驶车辆还是所有物品的互联网,机器都比以往任何时候都更加连接,以提高其完成给定任务的性能。尽管在传统的通信中,目标通常是在新兴任务范式下重建基础信息,但沟通的目的是使接收端能够做出更明智的决定或更精确的估计/计算 ...