我们介绍了基于服务器的强化学习(RL)框架,该框架解决了工业规模RL中的两个核心挑战:(1)将RL训练从代理的复杂执行流中解耦; (2)在最小的空闲时间中最大化GPU利用率,同时保留大规模部署所需的稳定性和可扩展性。首先,SeamlessFlow引入了一个数据平面,该数据平面将RL培训师与各种复杂的代理实现分解,同时维持高吞吐量。中央轨迹管理器保持完整的交互历史并支持部分推出,从而使推出可以暂停重 ...
0 0 0 2025/08/19 arXiv:2508.11553v1 wonders
基于LLM的代理商的最新进展表明,通过整合外部工具来处理复杂的,知识密集的任务。在不同的工具选择中,搜索工具在获取广泛的外部知识中起着关键作用。但是,开源代理仍然无法实现专家级搜索智能,能够解决模棱两可的查询,生成精确的搜索,分析结果并进行彻底探索的能力 ...
0 0 0 2025/08/19 arXiv:2508.07976v2 alg_dreamer
使用大型语言模型(LLM)解决的代理任务解决需要多转,多步交互,通常涉及复杂的功能调用和动态的用户代理交换。现有的基于仿真的数据生成方法对于此类方案,很大程度上取决于多个LLM代理之间的昂贵自回旋交互,从而限制了代理任务的实际性能。在本文中,我们提出了一种新型的非自动回归迭代生成框架,称为Toolace-MT,用于构建高质量的多转向代理对话 ...
0 0 0 2025/08/19 arXiv:2508.12685v1 uaene
由大型视觉语言模型(LVLM)提供动力的图形用户界面(GUI)代理已经成为一种革命性的方法,可以自动使用人机相互作用,该方法能够自主操作的个人设备(例如,手机)或设备中的应用程序以人类类似于人类的方式执行复杂的现实任务 ...
0 0 0 2025/08/18 arXiv:2507.06899v1 hhhhh
在陌生环境中的自适应导航对于家庭服务机器人至关重要,但由于需要低级路径计划和高级场景的理解,因此仍然具有挑战性。尽管最近的视力语言模型(VLM)的零击方法降低了对先前地图和特定场景的训练数据的依赖,但它们面临着重大局限性:离散观察结果,非结构化的内存表示形式以及不足的任务理解导致导航失败的时空不连续性。我们提出了Doraemon(分散的本体学意见可靠的代理,具有增强的记忆导向导航),这是一个新型认 ...
0 0 0 2025/08/18 arXiv:2505.21969v3 Curry123
从专业研究到日常计划,许多任务都被广泛的信息寻求瓶装,这比认知上复杂更重复。随着大型语言模型(LLM)的快速发展,由LLMS提供支持的自动搜索剂为使人类摆脱这项繁琐的工作提供了有希望的解决方案。但是,由于缺乏合适的基准,这些代理人可以可靠和完全完全无法评估这种“广泛的”集合的能力在很大程度上仍未被估算 ...
0 0 0 2025/08/18 arXiv:2508.07999v1 hx5563
对道路代理未来行为的可靠预测是自动驾驶车辆安全规划的关键组成部分。在这里,我们将连续轨迹表示为离散运动标记序列 ...
0 0 0 2025/08/18 arXiv:2309.16534v1 xumingjie02
现有的非结构化数据分析系统依靠专家编写代码并管理复杂的分析工作流程,使其既昂贵又耗时。为了应对这些挑战,我们介绍了一种创新的代理数据分析系统,允许用户简单地提出自然语言(NL)问题,同时自主分析跨多个域(包括非结构化数据和结构化数据)的数据源。首先,AgenticData采用了一种反馈驱动的计划技术,该技术会自动将NL查询转换为由关系和语义操作员组成的语义计划 ...
0 0 0 2025/08/18 arXiv:2508.05002v1 18916369915

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)