大型语言模型(LLM)的最新进展已大大提高了自然语言处理任务的性能。但是,它们概括到动态,看不见的任务(尤其是在数值推理中)的能力仍然是一个挑战。现有的基准主要在预定义的最佳解决方案的问题上评估LLM,这可能与没有明确答案的现实世界情景不符 ...
大型语言模型(LLMS)作为自主代理显示出了显着的功能,但是现有的基准要么专注于单一代理任务,要么局限于狭窄的域,因此未能捕获多机构协调和竞争的动态。在本文中,我们介绍了MultiaGentBench,这是一种综合基准,旨在评估各种交互式场景的基于LLM的多代理系统。我们的框架不仅衡量了任务完成,还可以使用基于里程碑的主要绩效指标来衡量协作和竞争的质量 ...
近期github问题解决引起了学术界和工业界的高度关注。建议使用swe-bench来衡量解决问题的性能。在本文中,我们提出了编码器,它采用多代理框架和预定义的任务图来修复和解决报告的错误并在代码存储库中添加新功能... ...
对话式AI的长期愿望之一是使他们能够在对话中自主采取主动行动,即积极主动 ...
大型语言模型(LLM)正在成为各种自然语言处理任务的重要工具,但通常会因产生过时或不正确的信息而受苦。通过将外部,实时信息检索纳入地面LLM响应来解决此问题,从而解决了此问题。但是,现有的抹布系统经常在检索文档的质量上挣扎,因为文档无关或嘈杂的文档降低了性能,增加计算开销并破坏了响应可靠性 ...
现有的现有自动音频生成方法难以有效地生成类似播客的音频程序。主要的挑战在于深入的内容产生,适当和表现力的语音生产。本文提出了Podagent,这是一个创建音频程序的综合框架 ...
在工业控制系统中,可编程逻辑控制器(PLC)代码的生成和验证对于确保运营效率和安全性至关重要。尽管大型语言模型(LLMS)在自动代码生成方面取得了长足的进步,但它们通常在提供正确的保证和专门支持PLC编程方面缺乏。为了应对这些挑战,本文介绍了代理4PLC,这是一个新颖的框架,不仅可以自动化PLC代码生成,而且还包括通过基于LLM的多代理系统的代码级验证 ...
大型语言模型(LLM)的最新进展导致了能够与图形用户界面(GUIS)进行交互的智能代理的开发。这些代理人表现出强大的推理和适应性,使他们能够执行传统上需要预定义规则的复杂任务。但是,基于LLM的代理中对分步推理的依赖通常会导致效率低下,尤其是对于常规任务 ...