图形用户界面(GUI)代理已经成为人类计算机交互中的变革范式,从基于规则的自动化脚本到能够理解和执行复杂接口操作的复杂的AI驱动系统。这项调查提供了对基于LLM的GUI代理快速前进的领域的全面检查,系统地分析了其建筑基础,技术组成部分和评估方法。我们识别并分析了构成现代GUI代理的四个基本组件:(1)将基于文本的解析与多模式理解相结合的感知系统,以实现全面的界面理解; (2)通过内部建模,历史经验 ...
视觉语言模型(VLMS)显示出对自动驾驶的希望,但他们与幻觉,效率低下的推理和有限的现实验证的斗争阻碍了准确的感知和稳健的逐步推理。为了克服这一点,我们介绍了AgentThink,这是一个开创性的统一框架,该框架首次将思想链(COT)推理与动态,代理风格的工具调用有关自主驾驶任务。 AgentThink的核心创新包括:(i)结构化数据生成,建立一个自动驾驶工具库,以自动构建结构化的,自我验证的推理 ...
过去两年见证了大语言模型(LLM)基于劳动密集型手动设计到部分自动化(\ textit {e.g。},及时的工程,通信拓扑)的演变(\ textit {eftexit {extiTIt),并最终到全自动设计 ...
多代理路径查找(MAPF)是人工智能和机器人技术中的一个基本问题,需要计算从启动位置到指定目标导航的多个代理的无碰撞路径。随着自主系统在仓库,城市运输和其他复杂环境中变得越来越普遍,MAPF已从理论挑战发展为现实世界多机器人协调的关键推动者。这项全面的调查桥接了经典算法方法与MAPF研究中基于学习的方法之间的长期鸿沟 ...
最近提出了代理(MOA)的混合物(MOA),以增强大语模型(LLM)的性能,使多个单独的LLMS可以共同努力以进行协作推断。与依靠单个LLM相比,这种协作方法可以改善对用户提示的响应。在本文中,我们在分布式设置中考虑了这样的MOA体系结构,其中LLMS在单个边缘设备上运行,每个设备都与用户唯一关联并配备了自己的分布式计算能力 ...
我们介绍了Xbench,这是一个动态,专业一致的评估套件,旨在弥合AI代理能力与现实世界生产率之间的差距。尽管现有的基准通常专注于孤立的技术技能,但它们可能无法准确反映代理商在专业环境中提供的经济价值。为了解决这个问题,Xbench以行业专业人员定义的评估任务为目标具有商业意义的领域 ...
沟通需要在代理之间具有通用语言,即通用语言。该语言可能会通过共识过程出现,但可能需要许多代价的反复试验。另外,可以通过环境给出通用语言,在该环境中,代理人将其语言扎根于观察到的世界的代表 ...
即使是最先进的大型语言模型(LLMS),科学推理也构成了过度挑战。为了使LLMS更实用和可解决,我们引入了一种名为“工具启动的科学推理”的新任务设置。此设置为LLM提供了可扩展的工具集,并将重点从追求无所不知的问题解决方案转移到熟练的工具用户 ...