当前的GUI代理在GUI元素接地方面取得了出色的性能。但是,计划仍然是高度挑战,尤其是由于对环境初始状态的敏感性。具体而言,初始状态之类的略有差异是因为目标软件没有打开,或者界面不在其默认状态通常会导致计划错误 ...
在本文中,我们介绍了AI搜索范式,这是一种用于模拟人类信息处理和决策的下一代搜索系统的综合蓝图。该范式采用了四种由LLM驱动的代理(Master,Planner,Executor和Writer)组成的模块化体系结构,可动态适应全部信息需求,从简单的事实查询到复杂的多阶段推理任务。这些代理商通过协调的工作流程动态协作,以评估查询复杂性,将问题分解为可执行计划,并协调工具使用,任务执行和内容综合 .. ...
在开放式的物理世界中本地化和识别物体在机器感知领域构成了长期的挑战。最近的方法已通过采用类不足的面具(或框)建议模型来解决问题,并由开放式摄影师分类器进行补充(例如 ...
文本到SQL将自然语言查询转换为结构化查询语言(SQL)命令,使用户能够使用自然语言与数据库进行交互。本质上,文本到SQL任务是文本生成任务,其开发主要取决于语言模型的变化。特别是随着大语言模型(LLM)的快速发展,文本到SQL的模式发生了重大变化 ...
运动学从人的手到机器人手的重新定位对于将敏捷从人类转移到操纵性和模仿学习中的机器人至关重要。但是,由于人体和机器人手之间的机械差异,不可能在机器人手上完全繁殖人的运动。重新定位的现有作品结合了各种优化目标,重点是手部配置的各个方面 ...
尽管大型语言模型在各种任务中具有令人印象深刻的能力,但它们的持续扩展不仅受到数据稀缺性的严重阻碍,而且还受到与培训期间与数据重复过多相关的绩效降低的影响。为了克服这种关键的瓶颈,我们提出了大规模的体裁理解方法(MGA)重新制定方法,这是一种受合成数据方法启发的轻巧且可扩展的增强技术。 MGA系统地将现有的语料库重新制定为多种多样的,富有上下文的变化,以减轻重复的负面影响,我们在这项工作中介绍了这种 ...
培训数据质量是最终模型质量的最重要驱动力之一。在这项工作中,我们介绍了一种基于低质量输入提示会导致高方差和低质量响应的假设来评估数据完整性的方法。这是通过衡量被拒绝的响应质量以及所选偏好对之间的奖励差距来实现的 ...
我们提出了VGGT-SLAM,这是一种密集的RGB SLAM系统,该系统是通过仅使用未校准的单眼摄像机从馈电场景重建方法逐渐和全球对齐的子构建的。相关作品使用相似性变换对齐子链扣(即 ...