照片修饰已成为当代视觉讲故事不可或缺的一部分,使用户能够捕捉美学并表达创造力。尽管Adobe Lightroom等专业工具提供了强大的功能,但它们需要大量的专业知识和手动努力。相比之下,现有的基于AI的解决方案提供了自动化,但通常会遭受有限的可调性和不良的概括,无法满足多样化和个性化的编辑需求 ...
大型语言模型(LLMS)在财务应用中表现出巨大的希望;但是,当前的模型在面对需要复杂的推理能力,严格的信任度标准和有效适应特定领域要求的情况下,经常表明局限性。我们介绍了基于QWEN3基础模型的专门设计的Agent-Fin-R1系列金融语言模型(8B和32B参数),以增强对财务应用程序的推理能力,可靠性和域专业化。我们的优化方法将高质量的系统财务任务标签系统与全面的多层可信度保证框架相结合 ...
计算流体动力学(CFD)是各种工程学科中的基本仿真工具,但通常需要实质性的域专业知识和手动配置,从而创造了进入障碍。我们提出了泡沫代理,这是一个多代理框架,可自动从自然语言输入中自动化复杂的基于OpenFOAM的CFD仿真工作流。我们的创新包括(1)具有针对不同仿真方面的专门指数的层次多指数检索系统,(2)依赖关系感知的文件生成系统,可在配置文件中提供一致性管理,以及(3)迭代错误校正机制,可诊断 ...
大型语言模型(LLM)代理商的快速发展引起了人们对其安全性和安全性的新担忧,这是传统的以文字为中心的LLM护栏无法解决的。我们建议通过动态检查其行为是否满足安全守卫要求,这是第一个保护目标代理的护栏代理。具体而言,Guardagent首先分析安全保护人员的请求以生成任务计划,然后将此计划映射到护栏代码中进行执行 ...
大型语言模型 (LLM) 在各种语言相关任务(包括搜索引擎)中展示了卓越的零样本泛化能力。然而,现有的工作利用 LLM 的生成能力进行信息检索(IR),而不是直接的段落排名。 LLM 的预培训目标与排名目标之间的差异带来了另一个挑战 ...
视觉动作(VLA)模型的最新进展已利用预先训练的视力语言模型(VLM)来提高概括能力。 VLM通常在视觉理解任务上进行培训,提供丰富的语义知识和推理能力。但是,先前的研究表明,VLM通常专注于高级语义内容和忽略低级功能,从而限制了它们捕获详细的空间信息并了解物理动态的能力 ...
最近努力直接使用大型语言模型(LLMS)作为执行交互式计划任务的代理模型显示出值得称赞的结果。但是,尽管取得了成就,但由于他们对``真实的''物理世界的不良理解,他们仍然在全球计划中无脑反复试验并在当地计划中产生幻觉行动。模仿人类的心理世界知识模型,该模型在任务之前提供全球先验知识,并在任务期间保持本地动态知识,在本文中,我们引入了参数世界知识模型(WKM),以促进代理计划 ...
对代理 - 环境相互作用轨迹数据进行微调对在开源大语言模型(LLMS)中浮出水面的代理能力有很大的希望。在这项工作中,我们介绍了AgentBank,这是迄今为止最大的轨迹调整数据收集,其高质量的高质量互动轨迹具有超过50k的高质量互动轨迹,其中包括16个任务,涵盖了五个不同的代理技能维度。利用新颖的注释管道,我们能够扩展带注释的轨迹并生成具有最小难度偏差的轨迹数据集 ...