一译 —— 文档和论文翻译、对照阅读、讨论和社区

ComputerRL: Scaling End-to-End Online Reinforcement Learning for Computer Use Agents

我们介绍了Computerrl，这是一个自主桌面智能的框架，使代理商能够巧妙地运行复杂的数字工作空间。 Computerrl具有API-GUI范式，该范式统一了程序化API调用和直接GUI交互，以解决机器代理与以人为中心的桌面环境之间固有的不匹配。端到端的RL培训对各种桌面任务的改进和概括至关重要，但由于环境效率低下和扩展培训的不稳定，仍然具有挑战性 ...

0 0 0 2025/08/21 arXiv:2508.14040v1 sixcluster

AutoPDL: Automatic Prompt Optimization for LLM Agents

大语言模型（LLMS）的性能取决于它们的提示方式，其选择涵盖了高级提示模式（例如，零射击，cot，cot，react，rewoo）和特定的提示内容（指令和少量示范） ...

0 0 0 2025/08/20 arXiv:2504.04365v2 18812680264

ID-Free Not Risk-Free: LLM-Powered Agents Unveil Risks in ID-Free Recommender Systems

无 ID 推荐范式的提出是为了解决传统推荐系统难以对具有新 ID 的冷启动用户或项目进行建模的限制。尽管其有效性，这项研究发现无 ID 推荐系统很容易受到拟议的文本模拟攻击 (TextSimu) 的影响，该攻击旨在推广特定的目标项目。作为一种新型的文本投毒攻击，TextSimu 利用大型语言模型（LLM）通过模拟流行项目的特征来改变目标项目的文本信息 ...

0 0 0 2025/08/20 arXiv:2409.11690v3 库奇

Deep Research Comparator: A Platform For Fine-grained Human Annotations of Deep Research Agents

有效地评估自主搜索网络，分析信息和生成报告的深入研究代理仍然是一个重大挑战，尤其是在评估长报告和对其中级步骤的详细反馈时。为了解决这些差距，我们介绍了深度研究比较器，该平台为深度研究代理，并排比较，细粒度的人类反馈收集和排名计算提供了整体框架。鉴于用户查询，我们的平台显示了来自两个不同代理的最终报告以及它们在发电期间的中间步骤 ...

0 0 0 2025/08/20 arXiv:2507.05495v1 Yuelong

OdysseyBench: Evaluating LLM Agents on Long-Horizon Complex Office Application Workflows

由大语言模型（LLMS）提供动力的自主代理人越来越多地部署在需要复杂的长途工作流程的现实应用程序中。但是，现有的基准主要集中在独立和独立的原子任务上，未能捕获长期的上下文依赖项和在现实场景中需要的多相互作用协调。为了解决这一差距，我们介绍了Odysseybench，这是一种全面的基准，用于评估LLM代理在不同的办公应用程序中长期工作流程中的LLM代理，包括Word，Excel，PDF，电子邮件和日 ...

0 0 0 2025/08/20 arXiv:2508.09124v1 加西亚的朋友

Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools

大型语言模型（LLM）代理通过利用外部工具在复杂的推理和决策中表现出了显着的功能。但是，以工具为中心的范式引入了先前未经爆炸的攻击表面：对手可以操纵工具元数据（例如名称，描述和参数模式）来影响代理行为。我们将其确定为一种新的隐形威胁表面，允许LLM代理优先选择恶意工具，而无需及时注入或访问模型内部设备 ...

0 0 0 2025/08/20 arXiv:2508.02110v1 0x211

Simple Prompt Injection Attacks Can Leak Personal Data Observed by LLM Agents During Task Execution

先前关于大语模型（LLM）快速注射的基准测试主要集中在通用任务和攻击上，从而有限地了解更复杂的威胁，例如数据剥离。本文探讨了如何提示注射会导致工具接种代理在任务执行期间观察到的个人数据。使用虚构的银行代理，我们开发了基于数据流的攻击，并将其集成到AgentDojo中，Agentojo是代理安全的最新基准 ...

0 0 0 2025/08/20 arXiv:2506.01055v1 hhhhh

WebMall -- A Multi-Shop Benchmark for Evaluating Web Agents

基于LLM的Web代理商有可能自动执行长期运行的Web任务，例如在多家在线商店中为特定产品寻找优惠，然后订购满足用户需求的最便宜的产品。本文介绍了Webmall，这是一种多购物中心的在线购物基准，用于评估网络代理在比较购物中的有效性和效率。 Webmall由四家模拟的在线商店组成，这些商店填充了来自Common Crawl的真实产品，以及一套91个跨购物中心任务 ...

0 0 0 2025/08/19 arXiv:2508.13024v1 hhhhh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）