chrisxiong的文档

chrisxiong

个性签名 ...

ToolACE-R: Tool Learning with Adaptive Self-Refinement

允许大型语言模型（LLM）利用外部工具来解决复杂用户任务的工具学习已成为扩展模型功能的有前途的途径。但是，当前的方法主要集中于微调LLM的数据合成，以有效调用工具，在很大程度上忽略了如何完全刺激模型的潜力。在本文中，我们提出了Toolace-R，这是一种新颖的方法，它引入了用于工具调用的自适应自我 ...

0 0 0 0 2025/04/08 arXiv:2504.01400v1 chrisxiong

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

近年来，大型语言模型 (LLM) 取得了显着的进步，促进了工具学习的探索，它将 LLM 与外部工具相集成，以应对各种现实世界的挑战。评估 LLM 利用工具的能力需要大规模且稳定的基准。然而，之前的工作要么依赖于规模有限的手工制作的在线工具，要么依赖于API状态不稳定的大规模真实在线API ...

0 0 0 0 2025/04/08 arXiv:2403.07714v5 chrisxiong

AgentStudio: A Toolkit for Building General Virtual Agents

创建能够在任何数字设备上使用任意软件的自主虚拟代理仍然是人工智能的主要挑战。阻碍进展的两个关键障碍是：在现实环境中构建虚拟代理的基础设施不足，以及需要对基本代理能力进行野外评估。为了解决这个问题，我们推出了 AgentStudio，这是一个在线的、现实的、多模式的工具包，涵盖了代理开发的整个生命周期 ...

0 0 0 0 2025/04/08 arXiv:2403.17918v3 chrisxiong

StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs

大型语言模型（LLM）的快速发展引发了人们对工具学习的重大兴趣，在该工具学习中，LLM可以使用外部工具来解决复杂的任务。但是，现有的工具环境面临平衡稳定性，可扩展性和现实性的挑战，尤其是用于基准测试目的。为了解决这个问题，我们提出了Mirrirapi，这是一个新颖的框架，该框架训练专业的LLM，以准确模拟真实的API响应，有效地充当工具环境的“镜像” ...

0 0 0 0 2025/04/08 arXiv:2503.20527v1 chrisxiong

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

大型语言模型（LLM）和视觉语言模型（VLM）具有丰富的知识并具有有希望的推理能力，但是，它们仍然在复杂，动态的环境中努力表现良好。现实世界中的任务需要处理复杂的互动，高级空间推理，长期计划以及对新策略的持续探索 - 我们缺乏有效的方法来全面评估这些能力。为了解决这一差距，我们介绍了Balrog，这是一种新颖的基准测试，旨在通过各种具有挑战性的游戏来评估LLM和VLM的代理能力 ...

0 0 0 0 2025/04/08 arXiv:2411.13543v2 chrisxiong

Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey

这项调查研究了在多转化对话设置中基于大语言模型（LLM）代理的评估方法。使用Prisma启发的框架，我们系统地审查了近250个学术资源，从各个出版物中捕获了最先进的现状，并为我们的分析建立了坚实的基础。我们的研究通过开发两个相互关联的分类系统提供了一种结构化的方法：一个定义\ emph {what是评估}的方法，另一种解释\ emph {如何评估}的方法 ...

0 0 0 0 2025/04/08 arXiv:2503.22458v1 chrisxiong

Open Grounded Planning: Challenges and Benchmark Construction

大型语言模型（LLM）的出现越来越引起人们对使用LLM进行类似人类计划的关注。基于LLM的计划的现有工作重点是利用LLM的固有语言生成能力来制定自由风格的计划，或者采用强化学习方法来学习决策，以在受限环境中进行有限的一组行动。但是，这两种方法都与现实世界计划中的公开和可执行要求都有很大的差异 ...

0 0 0 0 2025/04/08 arXiv:2406.02903v1 chrisxiong

AI Agents That Matter

AI代理是一个令人兴奋的新研究方向，而代理开发是由基准驱动的。我们对当前代理基准和评估实践的分析揭示了几个缺点，这阻碍了它们在现实应用程序中的有用性。首先，关注准确性的关注狭窄，而无需关注其他指标 ...

0 0 0 0 2025/04/08 arXiv:2407.01502v1 chrisxiong

Online Difficulty Filtering for Reasoning Oriented Reinforcement Learning

面向推理的增强学习（RORL）增强了大语言模型（LLMS）的推理能力。但是，由于RORL奖励的稀疏性，有效的培训高度取决于选择适当难度的问题。尽管课程学习试图通过调整难度来解决这一问题，但它通常依赖于静态时间表，即使是最近的在线过滤方法也缺乏理论基础和对其有效性的系统理解 ...

0 0 0 0 2025/04/08 arXiv:2504.03380v1 chrisxiong

NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls

由大型语言模型 (LLM) 支持的自主代理应用程序最近作为解决复杂的现实世界任务的有效工具而受到关注。代理工作流程的核心是依赖 LLM 来计划和执行工具和外部应用程序编程接口 (API) 的使用顺序，以获得用户请求的答案。已经出现了各种基准和排行榜来评估 LLM 使用工具和 API 的能力；然而，大多数这些评估仅跟踪单个或多个独立的 API 调用能力 ...

0 0 0 0 2025/04/08 arXiv:2409.03797v2 chrisxiong