一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Summary on GUI Agents with Foundation Models Enhanced by Reinforcement Learning

由多模式大型语言模型（MLLM）驱动的图形用户界面（GUI）代理已经成为一种有希望的范式，可实现与数字系统的智能互动。本文提供了一个结构化的摘要，内容涉及GUI代理的最新进展，重点是增强学习（RL）增强的体系结构。我们首先将GUI代理任务形式化为马尔可夫决策过程，并讨论典型的执行环境和评估指标 ...

0 0 0 2025/05/10 arXiv:2504.20464v1 momoom

DocETL: Agentic Query Rewriting and Evaluation for Complex Document Processing

分析非结构化数据一直是数据处理中的持续挑战。大型语言模型（LLMS）在这方面表现出了希望，这导致了有关LLM驱动的非结构化数据处理的最新建议。但是，这些框架专注于在使用LLMS执行用户指定的操作时降低成本，而不是提高准确性，执行大多数操作AS-IS（在单个LLM呼叫中） ...

0 0 0 2025/05/09 arXiv:2410.12189v3 zhangxinhao

Multi-agent Application System in Office Collaboration Scenarios

本文介绍了一个多代理应用系统，旨在提高办公室的协作效率和工作质量。该系统集成了人工智能，机器学习和自然语言处理技术，从而实现了任务分配，进度监控和信息共享等功能。系统中的代理能够根据团队成员的需求提供个性化的协作支持，并合并数据分析工具以提高决策质量 ...

0 0 0 2025/05/09 arXiv:2503.19584v3 mio

Infogent: An Agent-Based Framework for Web Information Aggregation

尽管看似性能的Web代理在任务完成基准测试中，但大多数现有方法还是基于预设的代理来评估代理：Web导航任务由具有标记任务完成的最终状态的线性操作序列组成。相比之下，我们的工作着重于网络导航以进行信息汇总，其中代理必须探索不同的网站以收集信息以进行复杂的查询。我们从两个不同的角度考虑Web信息聚合：（i）直接API驱动的访问依赖于网络的文本视图，利用外部工具（例如Google Search API） ...

0 0 0 2025/05/08 arXiv:2410.19054v1 arthur

SWE-smith: Scaling Data for Software Engineering Agents

尽管针对软件工程的语言模型（LMS）最近取得了进展，但收集培训数据仍然是一个重要的痛苦点。现有数据集很小，最多有11个或更少的GitHub存储库的培训实例。策划此类数据集的程序通常很复杂，需要数百小时的人工劳动；伴侣执行环境还占用了几种存储的数量，严重限制了它们的可扩展性和可用性 ...

0 0 0 2025/05/08 arXiv:2504.21798v1 xujiu

GraphMaster: Automated Graph Synthesis via LLM Agents in Data-Limited Environments

基础模型的时代已经彻底改变了AI研究，但是图形基础模型（GFM）仍然受到大规模图表的稀缺性的限制。传统的图形数据综合技术主要集中于简单的结构操作，缺乏具有有意义的文本属性的语义上丰富节点的能力：对现实世界应用的关键限制。尽管大型语言模型（LLMS）表现出非凡的文本生成能力，但它们在图形合成中的直接应用会受到上下文窗口限制，幻觉现象和结构一致性挑战的阻碍 ...

0 0 0 2025/05/08 arXiv:2504.00711v2 lindaxu

ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

大语言模型（LLM）的进步激起了人们对开发基于LLM的语言代理以自动化科学发现端到端的兴趣，这引发了人们对其真正能力的兴奋和怀疑。在这项工作中，我们呼吁对科学工作流程中各个任务的代理进行严格评估，然后再对端到端自动化提出大胆的主张。为此，我们介绍了ScienceagentBench，这是一种评估语言代理的新基准，用于数据驱动的科学发现 ...

0 0 0 2025/05/08 arXiv:2410.05080v3 leec

Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study

推理能力已显着提高了视觉模型（VLM）在数学解决问题，编码和视觉提问等领域中的性能。但是，它们对现实世界应用的影响尚不清楚。本文介绍了有关启用推理VLM在移动GUI代理的有效性的首次实证研究，该域需要解释复杂的屏幕布局，了解用户指令并执行多转交互 ...

0 0 0 2025/05/07 arXiv:2503.16788v1 404805854

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）