随着大型语言模型(LLM)的能力和自主权的增长,评估其输出,尤其是在开放式且复杂的任务中,HAS成为关键的瓶颈。新的范式正在出现:使用AI代理作为评估者本身。这种“代理 - 法官”方法利用LLM的推理和观点能力来评估其他模型的质量和安全性,并有望镇痛和细致的人类评估替代方案 ...
0 0 0 2025/09/08 arXiv:2508.02994v1 mikecyz
我们提出GLM-4.5,是具有355B总参数和32B激活参数的开源外源混合物(MOE)大型语言模型,具有一种支持思维和直接响应模式的混合推理方法。通过对23T Token 的多阶段培训以及专家模型迭代和强化学习的全面培训,GLM-4 ...
0 0 0 2025/09/08 arXiv:2508.06471v1 leec
Manus AI是2025年初引入的通用AI代理,标志着自主人工智能的显着进步。由中国创业公司开发的HTTP URL,旨在弥合“思维”和“手”之间的差距 - 将大语言模型的推理和计划功能与执行复杂的端到端任务的能力相结合。本文介绍了Manus AI的全面概述,探索了其核心技术架构,包括医疗保健,金融,制造,机器人技术和游戏等领域的各种应用程序,以及其关键优势,当前的局限性以及未来的潜力 ...
0 0 0 2025/09/08 arXiv:2505.02024v2 hrunpeng
自主Web代理求解复杂的浏览任务,但是现有的基准仅衡量代理是否完成任务,忽略它是否安全或以某种方式企业可以信任。为了将这些代理集成到关键的工作流程中,安全性和可信度(ST)是采用的前提条件。我们介绍了\ textbf {\ textsc {st-webagentbench}},这是一个可配置且易于扩展的套件,用于在现实的企业方案中评估Web代理ST ...
0 0 0 2025/09/08 arXiv:2410.06703v5 15927557235
本文介绍了Gui-Owl,这是一种基础GUI代理模型,在台面和移动环境的十个GUI基准上,在开源端到端模型之间实现了最先进的性能,涵盖了接地,问题答案,计划,计划,决策,决策和程序知识。 GUI-OWL-7B在Androidworld上达到66.4和29 ...
0 0 0 2025/09/08 arXiv:2508.15144v2 13366395289
大型语言模型(LLM)的代理通过迭代推理,探索和工具使用来解决复杂的任务,该过程可能会导致长期昂贵的上下文历史。虽然诸如OpenHANDS或光标或光标之类的最先进的软件工程(SE)代理使用基于LLM的摘要来解决此问题,但与仅省略较旧的观察值相比,增加的复杂性是否具有切实的性能优势。我们在五种不同模型配置中验证的SWE基础上的SWE代理中对这些策略进行了系统的比较 ...
0 0 0 2025/09/08 arXiv:2508.21433v2 leec
当前的大型语言模型(LLM)代理缺乏真正的数字双胞胎和社会AI应用所需的真实人类心理过程。为了解决这一局限性,我们提出了全球工作空间理论(GNWT)的计算实施,该计算将人类认知建筑原理整合到LLM代理中,为情感,记忆,社会规范,计划和目标跟踪创建专门的子代理,并通过全球工作空间机制进行协调。但是,正宗的数字双胞胎需要准确的个性初始化 ...
0 0 0 2025/09/08 arXiv:2506.03543v1 pandeng
基于大语言模型(LLM)建立的多机构系统在解决复杂的组成任务方面表现出了显着的功能。在这项工作中,我们将此范式应用于纸与寄生生成问题,这是准备会议的研究人员面临的实用且耗时的过程。尽管最近的方法试图自动执行这项任务,但最忽视的核心设计和审美原则,导致海报需要大量的手动精制 ...
0 0 0 2025/09/07 arXiv:2508.17188v1 jecc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)