随着大语言模型(LLM)的迅速增长,电话自动化发生了变化的变化。本文系统地回顾了LLM驱动的电话GUI代理,突出了它们从基于脚本的自动化到智能自适应系统的演变。我们首先将关键挑战的背景化,(i)有限的一般性,(ii)高维护开销和(iii)意图理解较弱,并通过先进的语言理解,多模式感知和强大的决策来展示LLM如何解决这些问题 ...
自然语言对可视化(NL2VIS)试图将自然语言描述转换为给定表的视觉表示,从而使用户能够从大规模数据中获得见解。大型语言模型(LLMS)的最新进展显示出在自动化代码生成中将表格数据转换为可访问可视化的有希望。但是,他们经常在需要跨多个表中推理的复杂查询中挣扎 ...
随着研究人员继续优化AI代理以在操作系统内更有效的任务执行,他们经常忽略一个关键的安全问题:这些代理在其环境中检测“冒名顶替者”的能力。通过对代理商的运营环境的分析,我们确定了一个重大的威胁攻击者可以将恶意攻击掩盖为环境因素,并将主动的干扰注入代理商的执行过程中,以操纵其决策。我们将这种新颖的威胁定义为主动环境注射攻击(AEIA) ...
由多模式大语言模型(MLLM)提供动力的图形用户界面(GUI)代理对人类交流的希望更大。但是,由于成本高昂,用户经常依靠AI提供商提供的开源GUI代理或API,这引入了关键但毫无用处的供应链威胁:后门攻击。在这项工作中,我们首先公布了MLLM驱动的GUI代理自然会暴露多个互动级触发器,例如历史步骤,环境状态和任务进度 ...
大型语言模型(LLM)代理的快速发展突出了跨供应商服务发现,互操作性和交流中的关键挑战。现有协议(例如模型上下文协议)和代理到代理协议在标准化代理和工具之间的互操作性以及多代理之间的通信方面取得了重大进步。但是,在不同代理商和工具供应商之间仍缺乏标准化的协议和解决方案 ...
多模式代理将控制器(例如,视觉语言模型)与外部工具集成在一起,在解决复杂的多模式任务方面具有显着的功能 ...
最近,大型语言模型(LLM)在自然语言理解和生成任务中的惊人表现引发了对将它们用作中央控制器的人们来构建代理系统的大量探索。扩展应用场景。然而,目前的 LLM 工具使用能力仅限于单个文本查询,这可能会导致用户真正理解含糊不清... ...
语言模型(LM)代理越来越多地用于自动化数字环境中复杂的任务。正如人类从功能强大的软件应用程序(例如集成开发环境)中受益于软件工程等复杂任务一样,我们认为LM代理代表具有自己的需求和能力的最终用户类别,并且将从专门建立的界面中受益于他们使用的软件。我们研究界面设计如何影响语言模型代理的性能 ...