大型语言模型(LLM)在复杂的推理任务中取得了显着进步,但由于依赖静态内部知识和仅文本推理,它们在根本上仍然限制了它们。现实世界中的解决问题通常需要动态,多步推理,自适应决策以及与外部工具和环境互动的能力。在这项工作中,我们介绍了艺术家(自我改进 Transformer 中的代理推理和工具集成),这是一个统一的框架,与LLMS的代理推理,强化学习和工具集成紧密结合 ...
0 0 0 2025/05/07 arXiv:2505.01441v1 firefly2024
持续学习的目标是找到一个模型,该模型解决了多个学习任务,这些任务依次介绍给学习者。在这种情况下,一个关键的挑战是学习者可能会在学习新任务时忘记如何解决以前的任务,这是一种被称为灾难性遗忘的现象。为了应对这一挑战,已经提出了许多实用方法,包括基于内存的,基于正则化和基于扩展的方法 ...
0 0 0 2025/05/06 arXiv:2305.00316v2 wide-sky
随着LLM代理人变得越来越有能力自主造成伤害,AI开发人员将依靠越来越复杂的控制措施来防止可能未对准的药物造成伤害。人工智能开发人员可以通过运行控制评估来证明他们的控制措施足够:测试练习,其中红色团队会产生试图颠覆控制措施的代理。为了确保控制评估准确地捕获未对准的风险,应将授予该红色团队的负担能够适应应在控制措施下部署的代理的能力概况 ...
0 0 0 2025/05/06 arXiv:2504.05259v1 leec
我们介绍了PowerGridWorld软件包,为用户提供了一个轻巧,模块化和可自定义的框架,以创建以电力系统为中心的多代理健身房环境,这些框架很容易与现有的培训框架(RL)集成在一起。尽管存在许多用于培训多代理RL(MARL)策略的框架,但没有一个可以迅速原型并开发环境本身,尤其是在异质(复合,多设备)动力系统的背景下,需要电力流解决方案来定义网格级变量和成本。 PowerGridWorld是一个 ...
0 0 0 2025/05/06 arXiv:2111.05969v1 李白
大型语言模型(LLM)的快速发展导致了各种行业的LLM代理商广泛部署,包括客户服务,内容生成,数据分析甚至医疗保健。但是,随着越来越多的LLM代理的部署,出现了一个主要问题:这些代理没有标准的方式与外部工具或数据源进行通信。缺乏标准化协议使代理商难以合作或有效地进行扩展,并且限制了他们处理复杂的现实世界任务的能力 ...
0 0 0 2025/05/06 arXiv:2504.16736v2 yangwenjie
大型语言模型(LLM)代理商的快速发展引起了人们对其安全性和安全性的新担忧,这是传统的以文字为中心的LLM护栏无法解决的。我们建议通过动态检查其行为是否满足安全守卫要求,这是第一个保护目标代理的护栏代理。具体而言,Guardagent首先分析安全保护人员的请求以生成任务计划,然后将此计划映射到护栏代码中进行执行 ...
0 0 0 2025/05/05 arXiv:2406.09187v2 dropout
随着对大语言模型(LLM)和AI代理的需求迅速增长,为有效的LLM推理的优化系统变得至关重要。尽管重大努力针对系统级工程,但通过数学建模和排队的角度探索了很少的努力。在本文中,我们旨在开发LLM推论的排队基础,弥合排队和LLM系统社区之间的差距 ...
0 0 0 2025/05/05 arXiv:2504.07347v2 Extious
代码审查旨在保证软件的整体质量和可靠性,是软件开发的基石。不幸的是,尽管代码审查至关重要,但它是一个劳动密集型过程,研究社区正在寻求自动化。现有的自动化方法依赖于单一输入输出生成模型,因此通常难以模拟代码审查的协作性质 ...
0 0 0 2025/05/05 arXiv:2402.02172v5 yexxok

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)