在复杂和动态环境中工作的软件工程师必须不断适应不断变化的需求,从经验中迭代学习,并根据新的见解重新考虑他们的方法。然而,当前基于大语言模型(LLM)的软件代理通常依赖于严格的流程,并且往往会重复无效的操作,而无法评估其性能或随着时间的推移调整其策略。为了应对这些挑战,我们提出了 SWE-Search,这是一种多代理框架,它将蒙特卡罗树搜索(MCTS)与自我改进机制集成在一起,以增强软件代理在存储库 ...
近年来,大型语言模型驱动的AI代理商表现出了前所未有的智慧,灵活性和适应性,并且正在迅速改变人类的生产和生活方式。如今,代理商正在进行新的进化。他们不再充当LLM等孤立的岛屿 ...
离线多代理强化学习是由于在离线设置中常见的分配转移问题的耦合效应以及在多代理环境中常见的高维问题,这使得该动作分布(OOD)和价值高估现象过于严重。在这个问题上,我们提出了一种新型的多代理离线RL算法,称为反事实保守Q学习(CFCQL),以进行保守的价值估计。 CFCQL并没有将所有代理作为高维单一的单个单一方法,而是直接应用单个代理方法,而是以反事实的方式分别计算出每个代理的保守正规化,然后线性 ...
人类可以通过计划,推理和预测行动结果来执行复杂的任务。为了使体现的代理人获得类似的能力,他们必须了解可转让到新颖场景的环境,并且预算有限的额外反复试验和错误。基于学习的方法(例如Deep RL)可以从数据中发现并利用应用程序域的固有规律和特征,并不断提高其性能,但是以大量培训数据为代价 ...
配备了外部工具的大型语言模型(LLM)代理已经变得越来越强大,例如网络购物,自动化电子邮件答复和财务交易。但是,这些进步扩大了对抗攻击的风险,尤其是当代理可以访问敏感的外部功能时。然而,操纵LLM代理执行有针对性的恶意行动或调用特定工具仍然具有挑战性,因为这些代理在执行最终措施之前广泛地推理或计划 ...
评估由大语言模型(LLMS)提供支持的多机构系统(MASS)的安全性是具有挑战性的,这主要是因为系统的复杂内部动力学和LLM脆弱性的不断发展的性质。传统攻击图(AG)方法通常缺乏对LLMS攻击建模的特定功能。本文介绍了使用攻击图(ATAG)的AI-Agent应用程序威胁评估,这是一个新颖的框架,旨在系统地分析与AI-Antent应用程序相关的安全风险 ...
随着代理AI系统从基本工作流程变为复杂的多代理协作,诸如Google的Agent2Agent(A2A)之类的鲁棒协议成为基本的推动者。为了促进安全采用并确保这些复杂互动的可靠性,了解A2A的安全实施至关重要。本文通过提供以A2A协议为中心的全面安全分析来解决这一目标 ...
大型语言模型推动了人工智能代理的研究和开发。人工智能代理可以充当智能助手,代表用户完成任务,并能够访问工具并能够在其环境中执行命令。通过研究和体验典型人工智能代理的工作流程,我们对它们的安全性提出了一些担忧。用于构建代理的框架或旨在改进代理的研究都没有解决这些潜在的漏洞 ...