函数呼叫使大型语言模型(LLMS)能够充当使用工具的代理,但是将数千个工具模式注入提示是昂贵且容易出错的。我们介绍了MCP-Zero,这是一种主动的代理框架,使LLM本身可以决定何时以及要检索哪些外部工具,从而从头开始组装特定于任务的工具链。该框架建立在三个组件上:(1)主动工具请求,该模型在其中排放了结构化的$ \ left <\ operatatorName {tool \ _ assista ...
0 0 0 2025/06/12 arXiv:2506.01056v2 shilu
基于自然语言指示的看不见的环境对于视力和语言导航(VLN)中的以自然语言指示仍然很难。现有的方法主要依赖RGB图像来进行环境表示,使潜在的文本语义和空间提示不足,并在说明和稀缺的环境表示之间留下了方式差距。凭直觉,人类在室内导航期间内在的空间布局内固有地面语义知识 ...
0 0 0 2025/06/12 arXiv:2412.06465v4 gavin218
大型语言模型(LLM)在自主完成现实应用程序的任务方面具有巨大的潜力。尽管如此,这些LLM代理在交互式环境中运行时会引入意外的安全风险。这项工作并没有以LLM生成的内容的无害性为中心,而是针对在不同环境中基准LLM代理的行为安全的必要需求 ...
0 0 0 2025/06/12 arXiv:2401.10019v3 lurenv
构建图形用户界面(GUI)代理是一个有前途的研究方向,它模拟了与计算机或手机的人类互动以执行各种GUI任务。但是,开发广义GUI代理的主要挑战是在各种操作系统和应用程序中缺乏足够的轨迹数据,这主要是由于手动注释的高成本。在本文中,我们提出了TONGUI框架,该框架通过从丰富的多模式Web教程中学习来建立广义的GUI代理 ...
0 1 0 2025/06/11 arXiv:2504.12679v2 steven_adam
检索增强的生成系统依赖于有效的文档检索功能。根据设计,在多跳检索方案中,传统的稀疏或密集的检索员面临挑战。在本文中,我们提出了齿轮,该齿轮通过两个关键的创新来提高抹布性能:(i)图形扩展,它增强了任何常规的基本猎犬,例如BM25,以及(ii)结合图形扩展的代理框架 ...
0 0 0 2025/06/11 arXiv:2412.18431v1 lindaxu
Web浏览器是互联网的门户,其中大部分人为活动。因此,通过网络浏览与Internet相互作用的AI代理中已经进行了重要的研究工作。但是,还有另一个专门针对与在线内容的机器交互设计的接口:应用程序编程接口(API) ...
0 0 0 2025/06/11 arXiv:2410.16464v2 panda__
大型语言模型(LLMS)的显着成功阐明了为学术和工业社区实现人工智能的有希望的途径,因为它们在各种应用程序中的前所未有的表现。随着LLM在研究和商业领域的突出地位,其安全性和安全性的影响已成为一个日益严重的关注点,不仅对于研究人员和公司而言,而且对每个国家也是如此。当前,现有对LLM安全性的调查主要集中在LLM生命周期的特定阶段,e ...
0 0 0 2025/06/11 arXiv:2504.15585v4 0x211
多模式视觉语言行动(VLA)模型的最新进展彻底改变了传统的机器人学习,使系统能够在统一框架中解释视觉,语言和行动,以进行复杂的任务计划。但是,掌握复杂的操纵任务仍然是一个开放的挑战,受到持续性上下文记忆中的限制,不确定性下的多代理协调以及跨变量序列的动态长马计划。为了应对这一挑战,我们提出\ textbf {hibernac},a \ textbf {hi} erarchical \ textbf ...
0 0 0 2025/06/11 arXiv:2506.08296v1 蔡明方

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)