使用大语言模型(LLM)代理的自动代码生成的最新进步使我们更加接近自动化软件开发的未来。但是,由于上下文长度的限制,现有的单个方法在生成和改善大规模,复杂的代码库方面面临限制。为了应对这一挑战,我们提出了自组织的多代理框架(SOA),这是一个新型的多代理框架,可实现大规模代码的可扩展生成和优化 ...
0 0 0 2025/03/12 arXiv:2404.02183v1 owenzds
代码调试是软件开发的重要阶段,对于确保代码生成任务中大语言模型(LLM)的可靠性和性能至关重要。人类调试通常遵循多阶段过程,其中包括错误本地化,错误标识,代码修复和代码识别。但是,现有的代码调试基准主要集中在代码维修阶段,该阶段仅提供有限的观点,可以评估LLMS的调试功能 ...
0 0 0 2025/03/12 arXiv:2408.05006v3 owenzds
传统上,离线数据集已用于评估面向任务的对话(TOD)模型。这些数据集缺乏上下文意识,使它们成为对话系统的次优基准。相反,具有上下文感知的用户代理可以模拟人类对话的可变性和不可预测性,从而使它们成为评估者的替代方案 ...
0 0 0 2025/03/11 arXiv:2411.09972v1 Sonsiiii
金融交易一直是一项具有挑战性的任务,因为它需要从各种模式中整合大量数据。传统的深度学习和强化学习方法需要大量的培训数据,并且通常涉及将各种数据类型编码为模型输入的数值格式,这限制了模型行为的解释性。最近,基于LLM的代理商在处理多模式数据方面表现出了显着的进步,使他们能够执行复杂的多步骤决策任务,同时为他们的思维过程提供见解 ...
0 0 0 2025/03/11 arXiv:2411.08899v1 yang1young
随着扩展大型语言模型面临高昂的成本,多代理系统成为一种有希望的选择,尽管受到静态知识假设和协调效率低下的挑战。我们介绍了知识吸引的贝叶斯土匪(KABB),这是一个新颖的框架,通过语义理解和动态适应来增强多代理系统协调。该框架具有三个关键创新:用于深度语义理解的三维知识距离模型,一种连续专家优化的双重适应机制以及用于有效专家选择的知识吸引的汤普森采样策略 ...
0 0 0 2025/03/11 arXiv:2502.07350v1 赵旭阳
许多研究应用了强化学习来训练对话政策并表现出巨大的希望。一种常见的方法是使用用户模拟器来获得大量的模拟用户体验来增强学习算法。但是,对现实的用户模拟器进行建模是具有挑战性的 ...
0 0 0 2025/03/11 arXiv:2004.03809v2 Sonsiiii
人们广泛采用感知增强的预训练,特别是通过接地技术,以增强图形用户界面(GUI)代理的性能。但是,在资源约束的情况下,面向坐标的接地和面向动作的推理之间的格式差异限制了基础对推理任务的有效性。为了应对这一挑战,我们提出了一种名为“查询推理”的面向查询的枢轴方法,该方法是GUI接地和推理之间的桥梁 ...
0 0 0 2025/03/11 arXiv:2503.00401v2 yuqiaochuang
我们发现,只需通过采样和投票方法,大型语言模型(LLM)的性能就会随着实例化代理的数量而变化。此外,该方法与现有的复杂方法正交,以进一步增强LLM,而增强程度与任务难度相关。我们对各种 LLM 基准进行了全面的实验,以验证我们的发现的存在,并研究可以促进其发生的属性 ...
0 0 0 2025/03/11 arXiv:2402.05120v2 赵旭阳

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)