当前的大型语言模型(LLMS)不仅限于某些最大上下文长度,而且无法强劲地消耗长输入。为了解决这些局限性,我们提出了ReadGent,这是一种LLM代理系统,在我们的实验中,将有效上下文长度提高到20倍。受到人类如何互动读取长文档的启发,我们将录像带作为一个简单的提示系统,它使用LLMS的先进语言能力来(1)决定将哪些内容存储在存储器情节中,(2)将这些记忆情节压缩为简短的情节记忆中,称为GIST记 ...
0 0 0 2025/05/19 arXiv:2402.09727v3 niuzai
这项研究对AI代理和代理AI进行了严格的区分,提供了结构化的概念分类法,应用映射和挑战分析,以阐明其不同的设计理念和能力。我们首先概述搜索策略和基础定义,将AI代理描述为由大语言模型(LLMS)和大型图像模型(LIM)驱动的模块化系统,用于狭窄,特定于任务的自动化。生成的AI被定位为前体,AI代理通过工具集成,及时的工程和推理增强来推进 ...
0 0 5 2025/05/19 arXiv:2505.10468v1 hwrabbit
代理人的自我完善,代理的主链大语言模型(LLM)是根据自己的政策自动采样的轨迹进行培训的,它已成为提高性能的一种有希望的方法。最近的进步,尤其是在网络环境中,面临着一个关键的局限性:它们的性能将在自主学习周期期间达到停滞点,从而阻碍进一步的进步。我们认为,这源于对Web环境的探索有限,以及对LLMS中预训练的Web知识的利用不足 ...
0 0 0 2025/05/19 arXiv:2504.21024v1 panda__
IT操作(AIOPS)的AI旨在自动化复杂的操作任务,例如故障定位和根本原因分析,以减少人类的工作量并最大程度地减少客户影响。尽管传统的DevOps工具和AIOPS算法通常专注于解决孤立的操作任务,但大型语言模型(LLMS)和AI代理的最新进展正在通过启用端到端和多任务自动化来彻底改变AIOPS。本文设想了一个未来,AI代理在整个事件生命周期内自主管理操作任务,从而导致自我修复云系统,这是我们定期 ...
0 0 0 2025/05/19 arXiv:2501.06706v1 x254898875
利用大型语言模型LLM的快速发展,基于LLM的代理已被开发用于处理各种现实世界的应用,包括金融、医疗保健和购物等。确保基于LLM的代理的可靠性和安全性至关重要。应用程序。然而,基于法学硕士的代理人的安全问题目前尚未得到充分探讨 ...
0 0 0 2025/05/18 arXiv:2402.11208v2 whfeLingYu
根据尤瓦尔·诺亚·哈拉里(Yuval Noah Harari)的说法,大规模的人类合作是由编码共同信念和价值观的共同叙述所驱动的。这项研究探讨了这些叙述是否可以类似地推动LLM代理人进行协作。我们使用有限重复的公共物品游戏,其中LLM代理商选择合作或利己主义支出策略 ...
0 0 0 2025/05/18 arXiv:2505.03961v2 jomei
我们证明,配备基本编码工具的LLM编码代理可以自主编辑自身,从而提高其在基准任务上的性能。我们发现,在经过验证的SWE基准的随机子集中,绩效从17%提高到53%,并在livecodebench上获得了额外的性能增长,以及合成生成的代理基准。我们的工作代表了代理系统的自动化和开放式设计的进步,并为那些寻求在工具使用和其他代理任务上培训LLM的人提供了参考代理框架 ...
0 0 0 2025/05/17 arXiv:2504.15228v1 dropout
对移动药物的准确评估可以显着提高其开发和现实世界的适用性。但是,由于定义任务奖励信号并实施相应的评估代码所需的大量手动努力,现有的移动代理基准缺乏实用性和可扩展性。为此,我们提出了AutoEval,这是一种自治代理评估框架,该框架在不手动努力的情况下测试移动代理 ...
0 0 0 2025/05/17 arXiv:2503.02403v1 404805854

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)