基于LLM的代理商在越来越多的软件工程(SWE)任务中显示出有希望的功能。但是,发展这一领域面临两个关键挑战。首先,高质量的培训数据是稀缺的,尤其是反映了现实世界中SWE场景的数据,在该数据中,代理必须根据其行动的结果与开发环境相互作用,执行代码和适应行为 ...
大型语言模型(LLMS)表现出令人印象深刻的通用推理和解决问题的能力。但是,他们在执行复杂的长途工作流程中挣扎,这些工作流程要求严格遵守标准操作程序(SOP),这是现实世界中工业自动化的关键要求。尽管需要这种需要,但缺乏反映SOP的复杂性,结构和特定于领域的细微差别的公共基准 ...
模拟在评估自主驾驶系统中起着至关重要的作用,在自主驾驶系统中,实际的多代理行为是关键方面。在多代理模拟中,主要挑战包括行为多模式和闭环分布变化。在这项研究中,我们重新审视用于生成多模式剂行为的混合模型,该模型可以涵盖包括连续混合模型和类似GPT的离散模型在内的主流方法 ...
机器学习(ML)研究通过具有丰富的多模式内容的学术论文扩展,包括文本,图表和表格结果。但是,将这些多模式元素转换为可执行的代码仍然是一个具有挑战性且耗时的过程,需要大量的ML专业知识。我们介绍了``纸上的代码''(P2C),这是一项新型任务,将科学出版物的多模式内容转换为完全可执行的代码存储库,该内容扩展到了代码生成的现有表述,仅将文本描述转换为孤立的代码sbippets ...
大型语言模型(LLM)表现出强大的功能,但从根本上保持静态,无法使其内部参数适应新任务,不断发展的知识领域或动态互动环境。随着LLM越来越多地部署在开放式的交互式环境中,这种静态性质已成为一种关键的瓶颈,需要代理,可以实时适应性地推理,采取行动和发展。这种范式的转变 - 从缩放静态模型到发展自我发展的代理 - 引发了人们对建筑和方法的日益兴趣,从而使能够从数据,交互和经验中进行持续学习和适应 .. ...
医学大型视力模型(MED-LVLM)已被广泛用于医学报告的生成。尽管MED-LVLM产生了最先进的性能,但它们仍表现出对所有发现正常发现的偏见,从而导致报道忽略了关键异常。此外,这些模型通常无法对准确诊断所需的放射学相关区域进行全面描述 ...
由大型语言模型(LLM)提供动力的代码生成代理正在彻底改变软件开发范式。与以前的代码生成技术不同,代码生成代理的特征是三个核心功能。 1)自主权:从任务分解到编码和调试的能力独立管理整个工作流程 ...
改善现实世界中的SWE任务(求解GitHub问题)的开源模型面临两个关键挑战:1)执行环境的可扩展策划以训练这些模型,以及2)测试时间计算的最佳缩放。我们介绍了AgentGym,这是最大的程序策划的可执行健身房环境,用于培训现实世界中的SWE-Agent,由超过8.7K的任务组成 ...