我们介绍了Computerrl,这是一个自主桌面智能的框架,使代理商能够巧妙地运行复杂的数字工作空间。 Computerrl具有API-GUI范式,该范式统一了程序化API调用和直接GUI交互,以解决机器代理与以人为中心的桌面环境之间固有的不匹配。端到端的RL培训对各种桌面任务的改进和概括至关重要,但由于环境效率低下和扩展培训的不稳定,仍然具有挑战性 ...
大语言模型(LLMS)的性能取决于它们的提示方式,其选择涵盖了高级提示模式(例如,零射击,cot,cot,react,rewoo)和特定的提示内容(指令和少量示范) ...
无 ID 推荐范式的提出是为了解决传统推荐系统难以对具有新 ID 的冷启动用户或项目进行建模的限制。尽管其有效性,这项研究发现无 ID 推荐系统很容易受到拟议的文本模拟攻击 (TextSimu) 的影响,该攻击旨在推广特定的目标项目。作为一种新型的文本投毒攻击,TextSimu 利用大型语言模型(LLM)通过模拟流行项目的特征来改变目标项目的文本信息 ...
有效地评估自主搜索网络,分析信息和生成报告的深入研究代理仍然是一个重大挑战,尤其是在评估长报告和对其中级步骤的详细反馈时。为了解决这些差距,我们介绍了深度研究比较器,该平台为深度研究代理,并排比较,细粒度的人类反馈收集和排名计算提供了整体框架。鉴于用户查询,我们的平台显示了来自两个不同代理的最终报告以及它们在发电期间的中间步骤 ...
由大语言模型(LLMS)提供动力的自主代理人越来越多地部署在需要复杂的长途工作流程的现实应用程序中。但是,现有的基准主要集中在独立和独立的原子任务上,未能捕获长期的上下文依赖项和在现实场景中需要的多相互作用协调。为了解决这一差距,我们介绍了Odysseybench,这是一种全面的基准,用于评估LLM代理在不同的办公应用程序中长期工作流程中的LLM代理,包括Word,Excel,PDF,电子邮件和日 ...
大型语言模型(LLM)代理通过利用外部工具在复杂的推理和决策中表现出了显着的功能。但是,以工具为中心的范式引入了先前未经爆炸的攻击表面:对手可以操纵工具元数据(例如名称,描述和参数模式)来影响代理行为。我们将其确定为一种新的隐形威胁表面,允许LLM代理优先选择恶意工具,而无需及时注入或访问模型内部设备 ...
先前关于大语模型(LLM)快速注射的基准测试主要集中在通用任务和攻击上,从而有限地了解更复杂的威胁,例如数据剥离。本文探讨了如何提示注射会导致工具接种代理在任务执行期间观察到的个人数据。使用虚构的银行代理,我们开发了基于数据流的攻击,并将其集成到AgentDojo中,Agentojo是代理安全的最新基准 ...
基于LLM的Web代理商有可能自动执行长期运行的Web任务,例如在多家在线商店中为特定产品寻找优惠,然后订购满足用户需求的最便宜的产品。本文介绍了Webmall,这是一种多购物中心的在线购物基准,用于评估网络代理在比较购物中的有效性和效率。 Webmall由四家模拟的在线商店组成,这些商店填充了来自Common Crawl的真实产品,以及一套91个跨购物中心任务 ...