尽管视觉语言有效监督了微调在增强视觉大语模型(VLLM)的性能方面的有效性。但是,现有的视觉说明调谐数据集包括以下局限性:(1)指令注释质量:尽管现有的VLLM表现出强大的性能,但这些高级VLLM产生的指令仍可能遭受不准确的损失,例如幻觉。 (2)说明和图像多样性:指令类型的有限范围以及图像数据中缺乏多样性可能会影响该模型产生多样化并更接近现实世界情景输出的能力 ...
多模式大语言模型(MLLM)的进步已在多模式理解方面取得了重大进展,从而扩大了他们分析视频内容的能力。但是,MLLM的现有评估基准主要集中在抽象的视频理解上,缺乏对其理解视频构图能力的详细评估,对视觉元素如何在高度编译的视频环境中结合和互动的细微解释。我们介绍了VidComposition,这是一种新的基准测试,专门旨在使用精心策划的编译视频和电影级注释来评估MLLM的视频组成能力 ...
视觉语言模型 (VLM) 最近取得了重大进展,但与闭源模型相比,开源指令数据的规模和质量有限,阻碍了其性能。在这项工作中,我们通过引入 Infinity-MM 来解决这一限制,这是一个包含 4000 万个样本的大规模多模式指令数据集,并通过严格的质量过滤和重复数据删除进行了增强。我们还提出了一种基于开源 VLM 的综合指令生成方法,使用详细的图像注释和多样化的问题生成 ...
我们阐明了陷阱和物理信息神经网络(PINNS)的机会。我们证明,仅具有relu(整流线性单元)或类似Relu的Lipschitz激活功能的多层感知器(MLP)始终会导致消失的Hessian。这样的网络施加的约束与任何第二或高阶部分微分方程(PDE)矛盾 ...
基于草图的图像检索(SBIR)是一个跨模式匹配问题,通常通过学习一个关节嵌入空间来解决,其中保留了照片和草图模式之间共享的语义内容。但是,到目前为止,SBIR中的一个基本挑战在很大程度上被忽略了,也就是说,草图是由人类提出的,并且不同用户之间存在相当大的样式变化。一个有效的SBIR模型需要明确说明这种样式多样性,以概括为看不见的用户样式 ...
在本文中,我们提出了MOTRV2,这是一种简单而有效的管道,用于使用预审前的对象检测器进行端到端的多目标跟踪。现有的端到端方法,MOTR和TrackFormer不如它们的跟踪,主要是由于它们的检测性能不佳。我们旨在通过优雅地合并额外的对象检测器来改善MOTR ...
尽管物理知识的神经网络(PINN)已成为一个流行的深度学习框架,用于解决由部分微分方程(PDES)控制的前进和反问题,但当采用更大,更深的神经网络体系结构时,众所周知,它们的性能会降低。我们的研究表明,这种反直觉行为的根源在于使用具有不适合初始化方案的多层感知器(MLP)体系结构,从而导致网络衍生物的培训较差,最终导致PDE残基损失的不稳定最小化。为了解决这个问题,我们介绍了物理知识的残留自适应网 ...
大多数现有的6多型机器人掌握解决方案都取决于对掌握姿势的强大监督,以确保令人满意的性能,当机器人在某些受限区域工作时,这可能是费力和不切实际的。为此,我们通过增强现实(AR)远程操作系统提出了一个自我监管的6-DOF rasp姿势检测框架,该系统可以有效地学习人类的示范并提供6-DOF的掌握姿势,而无需掌握姿势注释。具体而言,该系统从AR环境中收集了人类的演示,并从演示中学习了掌握策略 ...