自动GUI代理旨在通过在数字环境(例如Web,Mobile,台式设备)中自动执行复杂的任务来促进用户交互。它接收文本任务指令和GUI描述以生成可执行的操作(\ emph {例如 ...
对于多模式大语模型(MLLM)来说,实现视觉和语言之间的深入对齐仍然是一个核心挑战。这些模型通常无法完全利用视觉输入,默认为强大的语言先验。我们的方法首先提供了有关MLLM在内部如何建立对图像区域的视觉理解的见解,然后引入了扩大此功能的技术 ...
LLMS展示了处理非结构化数据的不可思议的能力,因此,有可能超越搜索和运行复杂的语义分析。我们描述了非结构化分析系统,Aryn的设计以及激励其设计的宗旨和用例。使用Aryn,用户可以用自然语言指定查询,并且系统会自动确定语义计划并执行它以计算大量非结构化文档的答案 ...
为了推动AI代理,大型基础模型显着改善了推理和指导执行,但是当前对视觉和语言的关注忽略了在开放世界环境中感知各种方式的潜力。但是,数据驱动的视觉和语言模型的成功是昂贵的甚至是不可行的,无法以极少数的方式复制。在本文中,我们提出VIT-LENS-2,通过以验证的VIT感知新颖的方式并将其与预定义的空间对齐,从而促进了有效的Omni-Modal表示学习 ...
语言模型 (LM) 理解自然语言的能力使其成为将人类指令解析为自主机器人任务计划的强大工具。与依赖特定领域知识和手工规则的传统规划方法不同,语言模型从不同的数据中进行概括,并以最小的调整适应各种任务,充当压缩的知识库。然而,标准形式的语言模型面临着长期任务的挑战,特别是在部分可观察的多智能体环境中 ...
视觉以其在操纵中的使用而闻名,尤其是使用视觉致威火。为了使其强大,需要多个摄像机来扩展视野。这在计算上具有挑战性 ...
多模式大型语言模型(MLLM)通过将视觉输入作为额外的 Token (LLMS)作为上下文来启用开放世界的视觉理解。但是,当视觉输入从单个图像变为长视频时,上述范式遇到困难,因为大量视频 Token 大大超过了MLLM的最大容量。因此,现有的基于视频的MLLM大多是在从输入数据中抽样一小部分 Token 时确定的,这可能会导致关键信息丢失并因此产生错误的答案 ...
结构表示对于重建和生成具有部分语义的可编辑的3D形状至关重要。最近的3D形状生成作品采用复杂的网络和结构定义,这些定义依赖于层次结构注释,并更少关注零件内部的细节。在本文中,我们提出了使用可区分的模板和相应的固定长度参数参数对同一类别中共享结构进行参数的方法 ...