多代理辩论(MAD),利用大语言模型(LLMS)之间的协作互动,旨在增强复杂任务中的推理能力。但是,其迭代对话和角色扮演特征的安全含义,尤其是对越狱攻击的敏感性引起有害内容的敏感性,仍然持批判性地持续不断。本文有系统地调查了在领先的商业LLM(GPT-4O,GPT-4,GPT-3,GPT-3)建立的四个著名疯狂框架的越狱漏洞 ...
互联网正在经历从“网站互联网”到“代理网站”的历史转变。虽然传统网站是信息托管和传播的基础,但新的边境正在出现,在该网站上,代理充当互联网的枢纽,在该互联网中,每个代理人托管一个或多个接收任务,解决这些解决方案并提供可行的解决方案的AI代理,标志着在数字景观中的重大变化,并代表了下一代在线生态系统。在这个愿景下,AI代理操作系统AIOS是AI代理开发,部署和执行的服务器,AI代理是Agentent ...
检索演示的一代(RAG)在知识密集型任务中显示出很大的潜力,但其传统架构依靠静态检索,将其有效性限制在需要顺序寻求信息的复杂问题上。虽然代理推理和搜索提供了一种更自适应的方法,但大多数现有方法都在很大程度上取决于及时工程。在这项工作中,我们介绍了Rag-Gym,这是一个统一的优化框架,在每个搜索步骤中通过细粒度的过程监督增强信息寻求信息 ...
Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences
在具有经验重播的强化学习(RL)中,存储在重播缓冲区中的经验会影响RL代理的性能。有关这些经验如何影响代理商的绩效的信息对于各种目的都是有价值的,例如确定对表现不佳的代理人负面影响的经历。估计经验影响的一种方法是保留的(LOO)方法 ...
我们提出了AIOS 1.0,这是一个新颖的平台,旨在通过环境上下文化来提高计算机使用代理(CUA)功能。尽管现有方法主要集中于构建更强大的代理框架或增强代理模型,但我们确定了一个基本限制:语言模型如何理解世界与计算机接口的结构方式之间的语义脱节 ...
尽管大型语言模型(LLM)代理可以有效地使用外部工具来进行复杂的现实世界任务,但它们需要内存系统来利用历史体验。当前的内存系统启用基本存储和检索,但尽管最近尝试合并图形数据库,但仍缺乏复杂的内存组织。此外,这些系统的固定操作和结构限制了它们在各种任务中的适应性 ...
基于自主LLM的代理已经成为复杂任务执行的强大范式,但该领域缺乏用于开发,部署,分发和发现代理的标准化工具。我们提出了Cerebrum,这是AIO的代理SDK,它通过三个关键组件解决此差距:(1)综合SDK,具有用于代理开发的模块化四层体系结构,用于代理开发,涵盖LLM,内存,存储,存储和工具管理; (2)由社区驱动的代理集线器共享和发现代理,并配有版本控制和依赖性管理; (3)用于测试和评估代理 ...
大型语言模型(LLM)和多模式大语言模型(MLLM)集成到移动GUI代理中的用户效率和经验显着提高。但是,这种进步还引入了尚未探索的潜在安全漏洞。在本文中,我们介绍了对多模式移动GUI代理商的系统安全调查,以解决现有文献中的这一关键差距 ...