大型语言模型 (LLM) 作为自主代理表现出了巨大的潜力,特别是在基于网络的任务中。然而,现有的LLM网络代理严重依赖昂贵的专有LLM API,而开放的LLM缺乏必要的决策能力。本文介绍了 WebRL,这是一种自我进化的在线课程强化学习框架,旨在使用开放式 LLM 来训练高性能网络代理 ...
0 0 0 2025/02/20 arXiv:2411.02337v3 chenxiaoli
我们介绍了科学世界,这是一种基准,旨在在新的互动文本环境中测试代理商在标准小学科学课程层面上的科学推理能力。尽管在提问和科学文本处理中看到了基于 Transformer 的进展,但我们发现当前的模型无法推理或解释新颖背景下学习的科学概念。例如,模型可以轻松回答已知材料的电导率是什么,但是当被问及如何在接地环境中进行实验以找到未知材料的电导率时 ...
0 0 0 2025/02/19 arXiv:2203.07540v2 格子
将强化学习算法应用于现实世界问题的障碍是缺乏合适的奖励功能。设计此类奖励功能很难部分,部分原因是用户仅对任务目标有隐性的理解。这引起了代理对齐问题:我们如何创建按照用户意图行为的代理?我们概述了一个高级研究方向,以解决围绕奖励建模的代理对准问题:通过与用户的互动学习奖励功能,并通过增强学习来优化学习的奖励功能 ...
0 0 0 2025/02/19 arXiv:1811.07871v1 leec
在开放式世界中完成长马(LH)任务对于具体代理人来说,这是一个重要但困难的问题。现有方法面临两个关键挑战:(1)他们在很大程度上依赖于从人类创建的数据或课程中获得的经验,缺乏连续更新多模式体验的能力,并且(2)他们可能会遇到灾难性遗忘的问题,面对新任务,遇到新任务,缺乏不断更新世界知识的能力。为了解决这些挑战,本文提出了一种具有持续世界模型(WM)的自主发展的代理人,可以通过自我计划,自我控制和自 ...
0 0 0 2025/02/19 arXiv:2502.05907v1 zsh231264
最近,通过直接感知图形用户界面(GUI)并生成相应的代码来控制键盘和鼠标输入,多模式大型语言模型(MLLM)已被用作控制键盘和鼠标输入的代理。但是,当前的代理主要在静态环境中表现出极好的了解,并且主要应用于相对简单的域,例如Web或移动接口。我们认为,强大的GUI代理应该能够感知GUI的时间信息,包括动态的Web内容和多步任务 ...
0 0 0 2025/02/19 arXiv:2406.10819v1 momoom
通过自然语言进行交流是机器智能的关键方面,它要求计算模型以不同的监督水平来学习和推理世界概念。对完全监督的非交互式任务(例如提问和程序文本理解)取得了重大进展。然而,就像基于文本的游戏一样,各种连续的交互任务已经揭示了现有方法的局限性,这些方法在连贯性,上下文意识及其从环境中有效学习的能力方面揭示了现有方法 ...
0 0 0 2025/02/19 arXiv:2305.05091v2 parsifalster
我们介绍了Zep,这是一种新型的AI代理的内存层服务,它在深度内存检索(DMR)基准中优于当前最新系统Memgpt。此外,与DMR相比,ZEP在更全面和具有挑战性的评估中表现出色,该评估更好地反映了现实世界中的用例。虽然现有的检索型生成(RAG)框架用于大语言模型(LLM)的代理商仅限于静态文档检索,但企业应用程序需要来自各种来源的动态知识集成,包括持续的对话和业务数据 ...
0 1 0 2025/02/19 arXiv:2501.13956v1 parsifalster
尽管大型语言模型(LLM)和大型多模态模型(LMM)取得了进步,但它们与基于语言的类人实体的集成仍然不完整,阻碍了物理环境中复杂的现实任务的执行。现有的集成通常具有有限的开源功能,这对这一领域的集体进步构成了挑战。我们推出 LEGENT,这是一个开放、可扩展的平台,用于使用 LLM 和 LMM 开发实体代理 ...
0 0 1 2025/02/19 arXiv:2404.18243v2 h094071

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)