自主Web代理求解复杂的浏览任务,但是现有的基准仅衡量代理是否完成任务,忽略它是否安全或以某种方式企业可以信任。为了将这些代理集成到关键的工作流程中,安全性和可信度(ST)是采用的前提条件。我们介绍了\ textbf {\ textsc {st-webagentbench}},这是一个可配置且易于扩展的套件,用于在现实的企业方案中评估Web代理ST ...
0 0 0 2025/09/08 arXiv:2410.06703v5 15927557235
本文介绍了Gui-Owl,这是一种基础GUI代理模型,在台面和移动环境的十个GUI基准上,在开源端到端模型之间实现了最先进的性能,涵盖了接地,问题答案,计划,计划,决策,决策和程序知识。 GUI-OWL-7B在Androidworld上达到66.4和29 ...
0 0 0 2025/09/08 arXiv:2508.15144v2 13366395289
大型语言模型(LLM)的代理通过迭代推理,探索和工具使用来解决复杂的任务,该过程可能会导致长期昂贵的上下文历史。虽然诸如OpenHANDS或光标或光标之类的最先进的软件工程(SE)代理使用基于LLM的摘要来解决此问题,但与仅省略较旧的观察值相比,增加的复杂性是否具有切实的性能优势。我们在五种不同模型配置中验证的SWE基础上的SWE代理中对这些策略进行了系统的比较 ...
0 0 0 2025/09/08 arXiv:2508.21433v2 leec
当前的大型语言模型(LLM)代理缺乏真正的数字双胞胎和社会AI应用所需的真实人类心理过程。为了解决这一局限性,我们提出了全球工作空间理论(GNWT)的计算实施,该计算将人类认知建筑原理整合到LLM代理中,为情感,记忆,社会规范,计划和目标跟踪创建专门的子代理,并通过全球工作空间机制进行协调。但是,正宗的数字双胞胎需要准确的个性初始化 ...
0 0 0 2025/09/08 arXiv:2506.03543v1 pandeng
基于大语言模型(LLM)建立的多机构系统在解决复杂的组成任务方面表现出了显着的功能。在这项工作中,我们将此范式应用于纸与寄生生成问题,这是准备会议的研究人员面临的实用且耗时的过程。尽管最近的方法试图自动执行这项任务,但最忽视的核心设计和审美原则,导致海报需要大量的手动精制 ...
0 0 0 2025/09/07 arXiv:2508.17188v1 jecc
Web启动的大型语言模型(LLM)的最新进展在复杂的推理任务中表现出很强的表现,但是这些功能大多锁定在具有不透明体系结构的专有系统中。在这项工作中,我们建议\ textbf {Manusearch},这是一个透明且模块化的多代理框架,旨在使对LLM的深入搜索民主化。 Manusearch将搜索和推理过程分解为三个协作代理:(1)迭代制定子查询的解决方案计划代理,(2)通过实时Web搜索来检索相关文 ...
0 0 0 2025/09/07 arXiv:2505.18105v1 Abidalswark
在这项工作中,我们解决了基于大语言模型(LLM)体现的代理商之间的合作问题,在该机构中,代理必须合作以实现共同的目标。以前的方法通常在没有长期的战略和合作计划的情况下即时和不连贯地执行行动,导致冗余步骤,失败,甚至在复杂的任务中产生严重的影响,例如搜索和撤退任务,讨论和合作计划至关重要。为了解决此问题,我们提出合作计划优化(CAPO),以提高基于LLM的体现药物的合作效率 ...
0 0 0 2025/09/07 arXiv:2411.04679v2 蔡明方
我们引入了并发模块化试剂(CMA),该框架策划了多个基于大型语言模型(LLM)的模块,这些模块完全异步运行但保持连贯且容忍的行为循环。该框架通过让意图从自主过程之间的语言介导的相互作用中脱颖而出来解决代理体系结构的长期困难。这种方法可以通过将推理到LLM的同时执行的模块,模块间交流以及单个共享的全局这种HTTP URL的组合结合来实现灵活,适应性和上下文依赖性的行为,这是对Minsky Mind  ...
0 0 0 2025/09/06 arXiv:2508.19042v1 hwrabbit

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)