工具调用已成为人工智能代理与现实世界交互和解决复杂任务的关键能力。虽然模型上下文协议 (MCP) 为工具集成提供了强大的标准化框架,但在对 AI 代理如何在现实的动态场景中使用不同的 MCP 工具有效解决多步骤任务进行基准测试方面存在很大差距。在这项工作中,我们提出了 LiveMCP-101,这是一个由 101 个精心策划的现实世界查询组成的基准,通过迭代 LLM 重写和手动审核进行完善,需要协调使用多个 MCP 工具,包括网络搜索、文件操作、数学推理和数据分析 ...

0 0 0 0 2025/10/10 arXiv:2508.15760v1 timturing

大型语言模型(LLM)的持续缩放是否会导致回报减少?现实世界的价值通常源于代理可以完成的任务长度。我们通过观察一个简单但违反直觉的事实开始这项工作,即单步准确性的边际收益可以使模型可以成功完成的任务长度增加指数改进。然后,我们认为,在执行中的错误而不是无法推理时,LLM的失败会导致更长的时间 ...

0 0 0 0 2025/09/17 arXiv:2509.09677v1 timturing

随着科学研究变得越来越复杂,需要创新的工具来管理大量数据,促进跨学科的合作并加速发现。大型语言模型(LLM)现在正在发展为基于LLM的科学代理,这些科学代理将关键任务自动化,从假设产生和实验设计到数据分析和仿真。与通用LLM不同,这些专业的代理集成了特定于域的知识,高级工具集和健壮的验证机制,从而使它们能够处理复杂的数据类型,确保可重复性并推动科学突破 ...

0 0 0 0 2025/05/26 arXiv:2503.24047v2 timturing

本文探讨了想法,并为特定于物理特定的大规模AI模型的开发和评估提供了潜在的路线图,我们称之为大型物理模型(LPMS)。这些模型基于基础模型(例如大型语言模型(LLM)(接受广泛数据训练)的基础模型,旨在满足物理研究的需求。 LPM可以独立运行,也可以作为集成框架的一部分 ...

0 0 0 0 2025/05/26 arXiv:2501.05382v1 timturing