一译 —— 文档和论文翻译、对照阅读、讨论和社区

Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning

通过增强学习（RL）的在线微调视觉模型（VLM）代理表明，有望在动态环境中为代理提供多步，面向目标的功能。但是，他们的开放式文本行动空间和行动产生的非端到最终性质对RL的有效在线探索提出了重大挑战，例如 ...

0 0 0 2025/06/04 arXiv:2505.03792v2 xjx0524

UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-based Mobile GUI Agents

在本文中，我们介绍了UI-Genie，这是一个自我改善的框架，解决了GUI代理中两个关键挑战：轨迹结果的验证是具有挑战性的，高质量的培训数据是不可扩展的。这些挑战分别由奖励模型和自我完善的管道解决。奖励模型UI-Genie-RM具有图像文本交织的体系结构，该体系结构有效地制作了历史上下文，并统一了行动级别和任务级别的奖励 ...

0 0 0 2025/06/04 arXiv:2505.21496v1 ello0211

Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks

大型语言模型（LLMS）在使语言代理能够处理简单任务方面显示出了显着的进步。但是，将它们应用于复杂的多步，长马的任务仍然是一个挑战。最近的工作通过将高级计划与低级执行分开，这使得模型能够有效地平衡高级计划目标和低级执行细节 ...

0 0 0 2025/06/04 arXiv:2503.09572v3 leec

A Practical Approach for Building Production-Grade Conversational Agents with Workflow Graphs

大型语言模型（LLM）的进步导致了各种服务领域的重大改进，包括搜索，建议和聊天机器人应用程序。但是，将最新的研究（SOTA）研究应用于工业环境提出了挑战，因为它需要保持灵活的对话能力，同时也严格遵守了特定的服务限制。由于LLM的概率性质，这可以看作是两个矛盾的要求 ...

0 0 0 2025/06/04 arXiv:2505.23006v1 waterfall666

Towards Trustworthy GUI Agents: A Survey

由大型基础模型提供支持的GUI代理可以与数字接口进行交互，从而在Web自动化，移动导航和软件测试中启用各种应用程序。但是，他们日益增长的自主权引起了人们对其安全性，隐私和安全性的关键关注。这项调查研究了GUI代理在五个关键方面的可信度：安全漏洞，动态环境中的可靠性，透明度和解释性，道德考虑和评估方法 ...

0 0 0 2025/06/04 arXiv:2503.23434v1 hhhhh

Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions

本文研究了图形用户界面（GUI）环境中多模式大语言模型（MLLM）代理的忠诚，旨在解决是否可以通过环境环境分散多模式GUI代理的研究问题。提出了一个一般设置，用户和代理都是良性的，而环境虽然不是恶意，但包含无关的内容。使用我们的模拟数据集评估了广泛的MLLM作为GUI剂，遵循三种具有不同感知水平的工作模式 ...

0 0 0 2025/06/04 arXiv:2408.02544v1 hhhhh

The Obvious Invisible Threat: LLM-Powered GUI Agents' Vulnerability to Fine-Print Injections

大型语言模型（LLM）动力GUI代理是一个专业的自主系统，可以根据高级说明代表用户执行任务。它通过观察和解释相关应用程序的图形用户界面（GUI），通常是视觉上，推断必要的动作序列，然后通过执行诸如单击，键入和敲击之类的动作来与GUI进行交互。要完成现实世界中的任务，例如填充表格或预订服务，GUI代理通常需要处理并采取敏感用户数据 ...

0 0 0 2025/06/03 arXiv:2504.11281v1 hhhhh

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

AI代理有可能显着改变网络安全局势。为了帮助我们了解这一变化，我们介绍了第一个框架，以捕捉不断发展的现实世界中的进攻和防御性网络障碍。通过BountyBench实例化此框架，我们设置了25个具有复杂，现实世界代码库的系统 ...

0 0 0 2025/06/03 arXiv:2505.15216v1 dm616703

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）