通过最少的人类干预来完成复杂的计算机任务的自主代理有可能改变人类计算机的相互作用,从而显着提高可访问性和生产力。但是,现有基准要么缺乏交互式环境,要么仅限于某些应用程序或域特有的环境,因此无法反映现实世界计算机使用的多样性和复杂性质,从而限制了任务范围和代理可扩展性的范围。为了解决此问题,我们介绍了OSWorld,这是针对多模式代理的首个可扩展的,真实的计算机环境,支持任务设置,基于执行的评估以及 ...
电信网络中的根本原因分析(RCA)是一项关键任务,但由于其复杂的基于图的推理要求和现实基准的稀缺性,它对人工智能(AI)提出了巨大的挑战 ...
从类似形式的文档(例如发票,采购订单,账单和财务文件)中提取字母数字数据,通常是通过视觉(OCR)和学习算法或整体管道来执行的,具有系统性改进的潜力。我们提出了一个代理AI系统,该系统利用大型语言模型(LLM)代理和强化学习(RL)驱动器代理来自动化一致,在LLM推理不确定性下进行自我改善提取。我们的工作突出了基于LLM的提取的局限性,并引入了一个模块化的多代理框架,该框架具有特定于任务的提示以及 ...
因果分析在科学发现和可靠的决策中起着基础作用,但是由于其概念性和算法的复杂性,它在领域专家中仍然很大程度上无法接近。因果方法与实践可用性之间的这种脱节提出了双重挑战:领域专家无法利用因果学习的最新进展,而因果研究人员缺乏广泛的现实世界部署来测试和完善其方法。为了解决这个问题,我们介绍了一种自治药物因果关系,它在大型语言模型框架内运行专家级别的因果分析 ...
多模态检索增强生成(mRAG)在缓解多模态大语言模型(MLLM)固有的“幻觉”问题方面发挥着重要作用。尽管很有希望,但现有的启发式 mRAG 通常预定义固定的检索过程,这会导致两个问题:(1)非自适应检索查询。 (2) 重载检索查询 ...
照片修饰是摄影艺术不可或缺的一部分,远远超出了简单的技术修复,以提高情感表达和叙事深度。尽管艺术家利用专业知识通过故意调整来创造独特的视觉效果,但非专业用户通常依靠自动化的工具,这些工具会产生视觉上令人愉悦的结果,但缺乏解释性深度和交互式透明度。在本文中,我们介绍了Phothagent,这是一个智能系统,将视觉语言模型(VLM)与先进的自然语言推理相结合,以模仿专业艺术家的创作过程 ...
照片修饰已成为当代视觉讲故事不可或缺的一部分,使用户能够捕捉美学并表达创造力。尽管Adobe Lightroom等专业工具提供了强大的功能,但它们需要大量的专业知识和手动努力。相比之下,现有的基于AI的解决方案提供了自动化,但通常会遭受有限的可调性和不良的概括,无法满足多样化和个性化的编辑需求 ...
大型语言模型(LLMS)在财务应用中表现出巨大的希望;但是,当前的模型在面对需要复杂的推理能力,严格的信任度标准和有效适应特定领域要求的情况下,经常表明局限性。我们介绍了基于QWEN3基础模型的专门设计的Agent-Fin-R1系列金融语言模型(8B和32B参数),以增强对财务应用程序的推理能力,可靠性和域专业化。我们的优化方法将高质量的系统财务任务标签系统与全面的多层可信度保证框架相结合 ...