大型语言模型(LLM)代理需要在现实世界任务中执行多转交互。但是,现有用于优化LLM代理的多转移RL算法在利用LLMS的概括能力的同时,无法在多个转弯中执行有效的信用分配,并且尚不清楚如何开发此类算法。为了研究这一点,我们首先引入了一个新的基准Colbench,LLM代理商在多个转弯中与人类合作者进行互动,以解决后端编程和前端设计中的现实任务 ...
尽管由大型语言模型 (LLM) 提供支持的基于 LLM 的代理可以使用外部工具和内存机制来解决复杂的现实任务,但它们也可能会引入严重的安全漏洞。然而,现有文献并未全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题,我们引入了 Agent Security Bench (ASB),这是一个综合框架,旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御,包括 10 个场景(例如: . ...
面向任务的对话系统对于从客户服务到个人助理的应用程序至关重要,并且在各个行业中广泛使用。但是,由于处理多个领域的各种用户意图,实体类型和特定于领域的知识的复杂性,开发有效的多域系统仍然是一个重大挑战。在这项工作中,我们提出了DARD(域分配的响应委托),这是一个能够成功处理多域对话框的多代理对话系统 ...
关系数据库驱动的数据分析(RDB-DA)报告生成旨在在查询关系数据库后生成数据分析报告,已广泛应用于财务和医疗保健等领域。通常,这些任务是由数据科学家手动完成的,使该过程非常密集,并表现出明确的自动化需求。虽然现有方法(e ...
检索增强的生成(RAG)被广泛用于将外部知识纳入大型语言模型,从而最大程度地减少了幻觉。标准的RAG管道可能包括多个组件,例如查询重写,文档检索,文档过滤和答案生成。但是,这些组件通常是通过监督的微调分别优化的,这可能导致单个模块的目标之间的未对准以及在提问(QA)任务中产生准确答案的总体目的 ...
我们介绍了Meta Mlgym和Mlgym-Bench,这是一个新的框架和基准,用于评估和开发AI研究任务的LLM代理。这是第一个用于机器学习(ML)任务的健身房环境,为培训此类代理的增强学习(RL)算法提供了研究。 MLGYM基础由来自计算机视觉,自然语言处理,强化学习和游戏理论等不同领域的13种不同和开放式的AI研究任务组成 ...
具有多模式感知和基于大型视觉模型(LVLM)的多模式感知和推理能力的体现代理的最新进展,在自主互动的真实或网络世界中表现出色,帮助人们在复杂的环境中做出明智的决策。但是,当前的作品通常通过黄金行动轨迹或针对确定目标的理想的以任务为导向的解决方案来优化。该范式认为有限的面向用户的因素,这可能是他们在广泛的个人助理应用程序中绩效降低的原因 ...
本文认为,不应开发完全自主的AI代理。为了支持这一职位,我们从先前的科学文献和当前的产品营销来划定不同的AI代理水平,并详细说明每个人的伦理价值观,并记录潜在的收益和风险的权衡。我们的分析表明,人们对系统的自主权的风险增加:用户将用户割让给AI代理的越多,对人的风险就越多 ...