现有的长期视频生成框架缺乏自动化计划,需要有关故事情节,场景,摄影和角色互动的手动输入,从而导致高成本和效率低下。为了应对这些挑战,我们提出了通过多代理思想链(COT)计划的自动化电影的Movieagent。 Movieagent提供了两个关键优势:1)我们首先探索并定义了自动化电影/Longe Video Generation的范式 ...
随着大语言模型(LLM)的快速发展,基于LLM的代理在各个领域被广泛采用,这对于自主决策和互动任务至关重要。但是,当前的工作通常依赖于适用于Vanilla LLM的及时设计或微调策略,这通常会导致在复杂的代理相关环境中的有效性或次优性能。尽管LLM优化技术可以改善许多一般任务中的模型性能,但它们缺乏针对关键代理功能的专门优化,例如长期计划,动态环境互动和复杂的决策 ...
随着大语言模型(LLM)的快速发展,基于LLM的代理和多代理系统(MAS)显着扩大了LLM生态系统的能力。这种演变源于通过内存,工具,环境甚至其他代理等其他模块赋予LLM的能力。但是,这一进步还引入了更复杂的可信度问题,以前的研究仅针对LLMS无法涵盖 ...
尽管对多代理系统(MAS)的热情越来越多,在该系统中,多个LLM代理商协作完成任务,但与单个代理框架相比,它们在流行的基准测试中的性能提高仍然很小。这一差距强调了分析阻碍MAS效力的挑战的必要性。在本文中,我们介绍了对MAS挑战的首次全面研究 ...
大型语言模型(LLMS)已超越简单的文本生成,直接将自然语言命令转化为切实动作的软件代理。尽管基于API的LLM代理最初因其强大的自动化功能以及与程序化端点的无缝集成而引起了人们的关注,但多模式LLM研究的最新进展使基于GUI的LLM Adents以类似人类的方式与图形用户接口相互作用。尽管这两个范式共享了实现LLM驱动的任务自动化的目标,但它们在建筑复杂性,开发工作流程和用户交互模型方面显着分歧 ...
基于LLM的代理的出现代表了AI的范式转移,从而使自主系统能够计划,推理,使用工具和维护内存,同时与动态环境进行交互。本文为这些越来越能力的药物提供了首次对评估方法的全面调查。我们系统地分析了四个关键维度的评估基准和框架:(1)基本代理能力,包括计划,工具使用,自我反射和内存; (2)用于网络,软件工程,科学和对话代理的特定应用程序基准; (3)通才代理商的基准; (4)用于评估代理的框架 ...
大型语言模型(LLM)代理需要在现实世界任务中执行多转交互。但是,现有用于优化LLM代理的多转移RL算法在利用LLMS的概括能力的同时,无法在多个转弯中执行有效的信用分配,并且尚不清楚如何开发此类算法。为了研究这一点,我们首先引入了一个新的基准Colbench,LLM代理商在多个转弯中与人类合作者进行互动,以解决后端编程和前端设计中的现实任务 ...
尽管由大型语言模型 (LLM) 提供支持的基于 LLM 的代理可以使用外部工具和内存机制来解决复杂的现实任务,但它们也可能会引入严重的安全漏洞。然而,现有文献并未全面评估针对基于 LLM 的代理的攻击和防御。为了解决这个问题,我们引入了 Agent Security Bench (ASB),这是一个综合框架,旨在形式化、基准测试和评估基于 LLM 的代理的攻击和防御,包括 10 个场景(例如: . ...