通过增强学习(RL)的在线微调视觉模型(VLM)代理表明,有望在动态环境中为代理提供多步,面向目标的功能。但是,他们的开放式文本行动空间和行动产生的非端到最终性质对RL的有效在线探索提出了重大挑战,例如 ...
0 0 0 2025/06/04 arXiv:2505.03792v2 xjx0524
在本文中,我们介绍了UI-Genie,这是一个自我改善的框架,解决了GUI代理中两个关键挑战:轨迹结果的验证是具有挑战性的,高质量的培训数据是不可扩展的。这些挑战分别由奖励模型和自我完善的管道解决。奖励模型UI-Genie-RM具有图像文本交织的体系结构,该体系结构有效地制作了历史上下文,并统一了行动级别和任务级别的奖励 ...
0 0 0 2025/06/04 arXiv:2505.21496v1 ello0211
大型语言模型(LLMS)在使语言代理能够处理简单任务方面显示出了显着的进步。但是,将它们应用于复杂的多步,长马的任务仍然是一个挑战。最近的工作通过将高级计划与低级执行分开,这使得模型能够有效地平衡高级计划目标和低级执行细节 ...
0 0 0 2025/06/04 arXiv:2503.09572v3 leec
大型语言模型(LLM)的进步导致了各种服务领域的重大改进,包括搜索,建议和聊天机器人应用程序。但是,将最新的研究(SOTA)研究应用于工业环境提出了挑战,因为它需要保持灵活的对话能力,同时也严格遵守了特定的服务限制。由于LLM的概率性质,这可以看作是两个矛盾的要求 ...
0 0 0 2025/06/04 arXiv:2505.23006v1 waterfall666
由大型基础模型提供支持的GUI代理可以与数字接口进行交互,从而在Web自动化,移动导航和软件测试中启用各种应用程序。但是,他们日益增长的自主权引起了人们对其安全性,隐私和安全性的关键关注。这项调查研究了GUI代理在五个关键方面的可信度:安全漏洞,动态环境中的可靠性,透明度和解释性,道德考虑和评估方法 ...
0 0 0 2025/06/04 arXiv:2503.23434v1 hhhhh
本文研究了图形用户界面(GUI)环境中多模式大语言模型(MLLM)代理的忠诚,旨在解决是否可以通过环境环境分散多模式GUI代理的研究问题。提出了一个一般设置,用户和代理都是良性的,而环境虽然不是恶意,但包含无关的内容。使用我们的模拟数据集评估了广泛的MLLM作为GUI剂,遵循三种具有不同感知水平的工作模式 ...
0 0 0 2025/06/04 arXiv:2408.02544v1 hhhhh
大型语言模型(LLM)动力GUI代理是一个专业的自主系统,可以根据高级说明代表用户执行任务。它通过观察和解释相关应用程序的图形用户界面(GUI),通常是视觉上,推断必要的动作序列,然后通过执行诸如单击,键入和敲击之类的动作来与GUI进行交互。要完成现实世界中的任务,例如填充表格或预订服务,GUI代理通常需要处理并采取敏感用户数据 ...
0 0 0 2025/06/03 arXiv:2504.11281v1 hhhhh
AI代理有可能显着改变网络安全局势。为了帮助我们了解这一变化,我们介绍了第一个框架,以捕捉不断发展的现实世界中的进攻和防御性网络障碍。通过BountyBench实例化此框架,我们设置了25个具有复杂,现实世界代码库的系统 ...
0 0 0 2025/06/03 arXiv:2505.15216v1 dm616703

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)