大型语言模型(LLM)和视觉语言模型(VLM)具有丰富的知识并具有有希望的推理能力,但是,它们仍然在复杂,动态的环境中努力表现良好。现实世界中的任务需要处理复杂的互动,高级空间推理,长期计划以及对新策略的持续探索 - 我们缺乏有效的方法来全面评估这些能力。为了解决这一差距,我们介绍了Balrog,这是一种新颖的基准测试,旨在通过各种具有挑战性的游戏来评估LLM和VLM的代理能力 ...
这项调查调查了开发有效的大语言模型(LLM)的多机构系统至关重要的基础技术。旨在回答如何最好地为协作,动态环境优化这些系统,我们专注于四个关键领域:建筑,内存,计划和技术/框架。通过分析最新进步及其局限性(例如可扩展性,实时响应挑战和代理协调约束),我们提供了对技术景观的详细观点 ...
随着人工智能的快速发展,智能决策技术在各种人类机器比赛中逐渐超过了人类水平,尤其是在复杂的多机构合作任务情景中。多代理合作决策涉及多个代理人共同完成既定任务并实现特定目标。这些技术广泛适用于实际情况,例如自动驾驶,无人机导航,灾难救援和模拟军事对抗 ...
这项调查研究了在多转化对话设置中基于大语言模型(LLM)代理的评估方法。使用Prisma启发的框架,我们系统地审查了近250个学术资源,从各个出版物中捕获了最先进的现状,并为我们的分析建立了坚实的基础。我们的研究通过开发两个相互关联的分类系统提供了一种结构化的方法:一个定义\ emph {what是评估}的方法,另一种解释\ emph {如何评估}的方法 ...
AI代理是一个令人兴奋的新研究方向,而代理开发是由基准驱动的。我们对当前代理基准和评估实践的分析揭示了几个缺点,这阻碍了它们在现实应用程序中的有用性。首先,关注准确性的关注狭窄,而无需关注其他指标 ...
使用标准化患者(SPS)的培训医务人员仍然是一个复杂的挑战,需要广泛的领域专业知识和特定角色的实践。大多数基于大语言模型(LLM)的模拟患者的研究致力于提高数据检索准确性或通过人类反馈调整提示。但是,这种重点忽略了患者代理人学习标准化表现模式的关键需求,该模式通过无监督的模拟将数据转化为类似人类的患者反应 ...
图像条件形成的图像产生的最新进展已显示出很大的进步。然而,前景条件的图像生成仍然没有被忽视,遇到了挑战,例如对象完整性,前后背景的不一致,有限的多样性和降低的控制灵活性。这些挑战是由当前的端到端介绍模型引起的,这些模型患有不准确的训练口罩,有限的前景语义理解,数据分布偏见以及视觉和文本提示之间的固有干扰 ...
大型语言模型(LLM)代理已经演变为智能处理信息,做出决策并与用户或工具互动。关键能力是长期记忆能力的整合,使这些代理能够利用历史互动和知识。但是,记忆的规模不断增长,对语义结构的需求构成了重大挑战 ...