基于语言模型的大型多代理系统(MASS)在解决复杂的现实世界任务方面表现出了强大的优势。但是,由于引入了其他攻击表面,质量特别容易受到错误信息注射的影响。为了促进对这些系统中错误信息传播动态的更深入的了解,我们引入了Misnfotask,这是一个新颖的数据集,具有复杂,现实的任务,旨在评估MAS鲁棒性,以抗这些威胁 ...
0 0 0 2025/08/11 arXiv:2506.00509v1 Zero_Zh123
本文介绍了Eicopilot,这是一种基于代理的新颖解决方案,可增强企业注册数据的搜索和探索在广泛的在线知识图中,例如那些详细介绍法律实体,注册资本和主要股东的搜索。传统方法需要基于文本的查询和手动子图探索,通常会导致耗时的过程。 Eicopilot通过Baidu Enterprise搜索部署为聊天机器人,通过利用大语言模型(LLMS)来解释自然语言查询,从而改善了这种格局 ...
0 0 0 2025/08/11 arXiv:2501.13746v1 zen.waters
推理是一个基本的认知过程,可以实现逻辑推理,解决问题和决策。随着大语言模型(LLM)的快速发展,推理已成为一种关键功能,将高级AI系统与赋予聊天机器人能力的传统模型区分开来。在这项调查中,我们将现有方法沿两个正交维度进行了分类:(1)制度,该政权定义了实现推理的阶段(无论是在推理时还是通过专用培训); (2)确定推理过程中涉及的组件的体系结构,区分包含外部工具的独立LLM和代理复合系统以及多机构协 ...
0 0 0 2025/08/11 arXiv:2504.09037v3 zen.waters
本文旨在证明开源集体的潜力和优势。这导致了一个有前途的问题:我们可以利用多个开源LLM匹配甚至击败封闭源LLM吗?为了回答这个问题,我们建议使用高性能的可扩展的多代理协作系统(MAC)框架SMAC。具体而言,为了将新的LLM和概括与各种问题的持续集成,我们首先提出了基于检索的先验选择(RPS),该选择将代理性能得分分配给每个LLM,以在任何给定的问题上在实例级别选择Top-K LLMS ...
0 0 0 2025/08/11 arXiv:2507.14200v1 jane88
超越人类认知局限性代表了LLM培训中的关键领域。诸如Deepresearch之类的专有代理系统已经在极其复杂的信息寻求信息基准(例如Browsecomp)上展示了超人的能力,例如Browsecomp,这是以前无法实现的壮举。我们认为,他们的成功取决于开源模型中不存在的复杂推理模式:在浏览大量信息景观时系统地减少极端不确定性的能力 ...
0 0 0 2025/08/11 arXiv:2507.02592v1 feilaixiaoyu
最近的工作突出了基于LLM的代理中存储机制的重要性,这使他们能够存储观察到的信息并适应动态环境。但是,评估其内存能力仍然是挑战。以前的评估通常受到记忆水平和交互式场景的多样性的限制 ...
0 0 0 2025/08/10 arXiv:2506.21605v1 sleep
具有可验证奖励(RLVR)的大规模加强学习已经证明了其在利用大语模型(LLMS)进行单转推理任务的潜力方面的有效性。在现实的推理方案中,LLMS通常可以利用外部工具来帮助解决任务解决过程。但是,当前的RL算法不足以平衡模型内在的长马推理能力及其在多转弯工具相互作用方面的熟练程度 ...
0 0 0 2025/08/09 arXiv:2507.19849v1 tututu
大型语言模型(LLM)代理已经演变为智能处理信息,做出决策并与用户或工具互动。关键能力是长期记忆能力的整合,使这些代理能够利用历史互动和知识。但是,记忆的规模不断增长,对语义结构的需求构成了重大挑战 ...
0 0 0 2025/08/09 arXiv:2503.21760v2 Likeforeverx

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)