一译 —— 文档和论文翻译、对照阅读、讨论和社区

Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study

推理能力已显着提高了视觉模型（VLM）在数学解决问题，编码和视觉提问等领域中的性能。但是，它们对现实世界应用的影响尚不清楚。本文介绍了有关启用推理VLM在移动GUI代理的有效性的首次实证研究，该域需要解释复杂的屏幕布局，了解用户指令并执行多转交互 ...

0 0 0 2025/05/07 arXiv:2503.16788v1 404805854

An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering

大型语言模型（LLMS）经常产生实际上不准确的产出 - 一种称为幻觉的现象 - 限制了其在知识密集的NLP任务中的准确性。检索授权的生成和代理框架（例如推理和代理（REACT））可以通过使模型访问外部知识来解决此问题。但是，LLM通常无法忠于检索信息 ...

0 0 0 2025/05/07 arXiv:2503.23415v1 7788

AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

使用大语言模型（LLM）进行个性化，标准化任务的自主权提高了人类效率。自动化网络任务（例如在预算内预订酒店）越来越受到追捧。满足实际需求，Web代理也是各种代理接地方案的重要概念验证示例，并在许多未来的应用程序中都取得了成功的进步 ...

0 0 1 2025/05/07 arXiv:2410.13825v1 panda__

SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing

尽管开源视频生成和编辑模型取得了重大进展，但单个模型通常仅限于特定的任务，无法满足用户的各种需求。有效地协调这些模型可以解锁广泛的视频生成和编辑功能。但是，手动协调是复杂且耗时的，要求用户深入了解任务要求，并拥有对每个模型的性能，适用性和局限性的全面知识，从而增加了进入障碍 ...

0 0 0 2025/05/07 arXiv:2411.18983v1 likelike

Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning

大型语言模型（LLM）在复杂的推理任务中取得了显着进步，但由于依赖静态内部知识和仅文本推理，它们在根本上仍然限制了它们。现实世界中的解决问题通常需要动态，多步推理，自适应决策以及与外部工具和环境互动的能力。在这项工作中，我们介绍了艺术家（自我改进 Transformer 中的代理推理和工具集成），这是一个统一的框架，与LLMS的代理推理，强化学习和工具集成紧密结合 ...

0 1 0 2025/05/07 arXiv:2505.01441v1 firefly2024

The Ideal Continual Learner: An Agent That Never Forgets

持续学习的目标是找到一个模型，该模型解决了多个学习任务，这些任务依次介绍给学习者。在这种情况下，一个关键的挑战是学习者可能会在学习新任务时忘记如何解决以前的任务，这是一种被称为灾难性遗忘的现象。为了应对这一挑战，已经提出了许多实用方法，包括基于内存的，基于正则化和基于扩展的方法 ...

0 0 0 2025/05/06 arXiv:2305.00316v2 wide-sky

How to evaluate control measures for LLM agents? A trajectory from today to superintelligence

随着LLM代理人变得越来越有能力自主造成伤害，AI开发人员将依靠越来越复杂的控制措施来防止可能未对准的药物造成伤害。人工智能开发人员可以通过运行控制评估来证明他们的控制措施足够：测试练习，其中红色团队会产生试图颠覆控制措施的代理。为了确保控制评估准确地捕获未对准的风险，应将授予该红色团队的负担能够适应应在控制措施下部署的代理的能力概况 ...

0 0 0 2025/05/06 arXiv:2504.05259v1 leec

PowerGridworld: A Framework for Multi-Agent Reinforcement Learning in Power Systems

我们介绍了PowerGridWorld软件包，为用户提供了一个轻巧，模块化和可自定义的框架，以创建以电力系统为中心的多代理健身房环境，这些框架很容易与现有的培训框架（RL）集成在一起。尽管存在许多用于培训多代理RL（MARL）策略的框架，但没有一个可以迅速原型并开发环境本身，尤其是在异质（复合，多设备）动力系统的背景下，需要电力流解决方案来定义网格级变量和成本。 PowerGridWorld是一个 ...

0 0 0 2025/05/06 arXiv:2111.05969v1 李白

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）