我们证明,配备基本编码工具的LLM编码代理可以自主编辑自身,从而提高其在基准任务上的性能。我们发现,在经过验证的SWE基准的随机子集中,绩效从17%提高到53%,并在livecodebench上获得了额外的性能增长,以及合成生成的代理基准。我们的工作代表了代理系统的自动化和开放式设计的进步,并为那些寻求在工具使用和其他代理任务上培训LLM的人提供了参考代理框架 ...
0 0 0 2025/05/17 arXiv:2504.15228v1 dropout
对移动药物的准确评估可以显着提高其开发和现实世界的适用性。但是,由于定义任务奖励信号并实施相应的评估代码所需的大量手动努力,现有的移动代理基准缺乏实用性和可扩展性。为此,我们提出了AutoEval,这是一种自治代理评估框架,该框架在不手动努力的情况下测试移动代理 ...
0 0 0 2025/05/17 arXiv:2503.02403v1 404805854
大型语言模型(LLM)的出现促进了人工智能的变革转变,为能够在不同领域跨越复杂的推理,强大的感知和多才多艺的动作铺平了道路。随着这些代理人越来越多地推动了人工智能研究和实际应用,它们的设计,评估和持续改进会带来复杂的多方面挑战。这项调查提供了全面的概述,在模块化的,脑为灵感的体系结构中构建了智能代理,该体系结构整合了认知科学,神经科学和计算研究的原理 ...
2 0 0 2025/05/17 arXiv:2504.01990v1 huode9
大型语言模型(LLM)的最新进展使基于LLM的代理能够成功处理互动计划任务。但是,尽管取得了成功,但现有的方法通常会遭受计划幻觉的困扰,并且需要为每个新代理商进行再培训。为了应对这些挑战,我们提出了META计划优化(MPO)框架,该框架通过直接合并明确的指导来增强代理计划功能 ...
0 0 0 2025/05/16 arXiv:2503.02682v1 nrc
代理人工智能(AI)建立在生成的AI(Genai)的基础上。它构成了AI发展的下一个主要步骤,具有更强的推理和互动能力,使得更加自主行为能够解决复杂的任务。自Chatgpt的最初发行以来(3 ...
0 0 0 2025/05/16 arXiv:2504.18875v1 yanhuabing
语言模型(LM)代理人越来越多地用作自主决策者,他们需要积极收集信息来指导其决策。对于此类药物来说,至关重要的认知技能是对世界因果结构的有效探索和理解,这是强大,科学扎根的推理的关键。然而,目前尚不清楚LMS是否具有这种能力或表现出系统性的偏见,导致了错误的结论 ...
0 0 0 2025/05/15 arXiv:2505.09614v1 hang
为了成功执行通用数字任务,例如Web导航,代理必须执行各种专业任务,例如搜索产品或计划旅行路线。为了解决这些任务,代理可以通过与网络环境互动在线学习特定于任务的技能来引导自己。在这项工作中,我们证明程序是技能的有效代表 ...
0 0 0 2025/05/15 arXiv:2504.06821v1 chrisxiong
本文提出了一种用于自动驾驶车辆的简单高效的运动预测基线((简单)。与精度高但重复计算的传统以代理为中心的方法以及精度和通用性受到影响的以场景为中心的方法不同,简单,为所有相关交通参与者提供实时、准确的运动预测。为了提高准确性和推理速度,我们提出了一种紧凑而高效的全局特征融合模块,该模块以对称方式执行定向消息传递 ...
0 0 0 2025/05/14 arXiv:2402.02519v1 jerome.zhou

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)