诸如剪辑之类的视觉模型在对齐视觉和文本表示方面取得了重大成功,成为许多多模式大语言模型(MLLM)等基本组成部分,例如Llava和OpenFlamingo。但是,许多研究都将Clip有限的细粒感视为关键缺点,从而导致下游MLLM的实质性失败。相比之下,诸如Dinov2之类的以视觉为中心的基础模型在捕获图像的细节方面表现出了非凡的功能 ...
我们建议学习使用隐式功能通过灵巧的手来产生抓握运动来进行操纵。通过连续的时间输入,该模型可以生成连续且平滑的抓握计划。我们命名了建议的模型连续掌握函数(CGF) ...
基于 3D 占用的感知管道通过捕获详细的场景描述并展示跨各种对象类别和形状的强大通用性,显着推进了自动驾驶。当前的方法主要依赖 LiDAR 或摄像头输入来进行 3D 占用预测。这些方法容易受到恶劣天气条件的影响,限制了自动驾驶汽车的全天候部署 ...
人们对自动驾驶汽车的看法必须是高效、稳健且具有成本效益的。然而,摄像头在恶劣天气条件下的鲁棒性不强,激光雷达传感器价格昂贵,基于雷达的感知性能仍然不如其他传感器。人们提出了相机-雷达融合方法来解决这个问题,但这些方法受到雷达点云典型稀疏性的限制,并且通常是为没有高程信息的雷达而设计的 ...
随着现代在线服务系统的越来越复杂,了解系统的状态和行为对于确保其可靠性和稳定性至关重要。因此,公制监测系统被广泛使用,并成为在线服务系统中的重要基础架构。工程师通常通过手动编写特定于域的语言(DSL)查询来与指标数据进行交互,以实现各种分析目标 ...
音频驱动的角色动画的当前最新方法(SOTA)方法表明了主要涉及语音和唱歌的场景表现。但是,它们通常在更复杂的电影和电视作品中跌落,这些电影需要复杂的元素,例如细微的角色相互作用,现实的身体运动和动态的相机作品。为了应对实现电影级角色动画的长期挑战,我们提出了一个音频驱动的模型,我们将其作为WAN建立的WAN-S2V进行调查 ...
执行富含接触的操作任务需要融合触觉和视觉反馈。但是,这些方式的独特性质提出了重大挑战。在本文中,我们介绍了一个系统,该系统利用视觉和触觉感官输入以实现灵巧的操纵 ...
虽然经过思考链(COT)推理改善了模型性能,但由于产生离散的COT Token (DCOT),它会造成大量的时间成本。连续COT(CCOT)提供了更有效的替代方案,但是现有的CCOT方法受到间接微调,有限的对齐或不一致的目标的阻碍。为了克服这些限制,我们提出了一个创新的有效推理框架\ textit {synadapt} ...