通过增强学习(RL)的在线微调视觉模型(VLM)代理表明,有望在动态环境中为代理提供多步,面向目标的功能。但是,他们的开放式文本行动空间和行动产生的非端到最终性质对RL的有效在线探索提出了重大挑战,例如 ...
在本文中,我们介绍了UI-Genie,这是一个自我改善的框架,解决了GUI代理中两个关键挑战:轨迹结果的验证是具有挑战性的,高质量的培训数据是不可扩展的。这些挑战分别由奖励模型和自我完善的管道解决。奖励模型UI-Genie-RM具有图像文本交织的体系结构,该体系结构有效地制作了历史上下文,并统一了行动级别和任务级别的奖励 ...
大型语言模型(LLMS)在使语言代理能够处理简单任务方面显示出了显着的进步。但是,将它们应用于复杂的多步,长马的任务仍然是一个挑战。最近的工作通过将高级计划与低级执行分开,这使得模型能够有效地平衡高级计划目标和低级执行细节 ...
大型语言模型(LLM)的进步导致了各种服务领域的重大改进,包括搜索,建议和聊天机器人应用程序。但是,将最新的研究(SOTA)研究应用于工业环境提出了挑战,因为它需要保持灵活的对话能力,同时也严格遵守了特定的服务限制。由于LLM的概率性质,这可以看作是两个矛盾的要求 ...
由大型基础模型提供支持的GUI代理可以与数字接口进行交互,从而在Web自动化,移动导航和软件测试中启用各种应用程序。但是,他们日益增长的自主权引起了人们对其安全性,隐私和安全性的关键关注。这项调查研究了GUI代理在五个关键方面的可信度:安全漏洞,动态环境中的可靠性,透明度和解释性,道德考虑和评估方法 ...
本文研究了图形用户界面(GUI)环境中多模式大语言模型(MLLM)代理的忠诚,旨在解决是否可以通过环境环境分散多模式GUI代理的研究问题。提出了一个一般设置,用户和代理都是良性的,而环境虽然不是恶意,但包含无关的内容。使用我们的模拟数据集评估了广泛的MLLM作为GUI剂,遵循三种具有不同感知水平的工作模式 ...
大型语言模型(LLM)动力GUI代理是一个专业的自主系统,可以根据高级说明代表用户执行任务。它通过观察和解释相关应用程序的图形用户界面(GUI),通常是视觉上,推断必要的动作序列,然后通过执行诸如单击,键入和敲击之类的动作来与GUI进行交互。要完成现实世界中的任务,例如填充表格或预订服务,GUI代理通常需要处理并采取敏感用户数据 ...
AI代理有可能显着改变网络安全局势。为了帮助我们了解这一变化,我们介绍了第一个框架,以捕捉不断发展的现实世界中的进攻和防御性网络障碍。通过BountyBench实例化此框架,我们设置了25个具有复杂,现实世界代码库的系统 ...