我们介绍了一种称为条件可逆神经网络(CINN)的新体系结构,并使用它来解决自然图像的各种图像到图像翻译的任务。由于某些基本限制,现有INN模型不容易实现这一目标。 CINN将纯生成的Inn模型与不受约束的进料网络相结合,该网络有效地将调理图像预处理成最大信息的特征 ...
医学图像分割中的半监督学习利用未标记的数据来减轻注释负担,通过一致性学习。但是,当前的方法与病理变化的阶级失衡和高度不确定性困难,导致3D医学图像中的分割不准确。为了应对这些挑战,我们提出了染色,这是一种动态的不确定性感知一致性和对比度学习框架,从而增强了具有两种互补损失的一致性方法的概括:不确定性感知的一致性损失(UNCL)和局部熵感知的对比偏见损失(FECL) ...
鉴于3D医学成像技术(例如MRI和CT)的流行率广泛用于诊断和治疗各种疾病,因此3D分割是医学图像分析的基本任务之一。最近,通过对大规模自然图像基准数据集进行预培训,基于 Transformer 的模型已开始在许多视觉任务中实现最新的性能。尽管医学图像分析的作品也已经开始探索基于 Transformer 的模型,但目前尚无最佳策略来有效利用预训练的 Transformer ,这主要是由于2D自然图 ...
随着时间的流逝,各种系列的大型语言模型越来越多。研究人员正在努力最大程度地提高具有约束参数大小的语言模型的性能。但是,从微观的角度来看,关于如何更好地存储模型参数(尤其是MLP)中的知识的研究有限,以通过模型更有效地利用这种知识 ...
大型语言模型在推理能力方面已经展现出巨大的进步,特别是通过推理时间缩放,如 OpenAI 的 o1 等模型所示。然而,当前的视觉语言模型(VLM)通常很难执行系统和结构化的推理,特别是在处理复杂的视觉问答任务时。在这项工作中,我们介绍了 LLaVA-o1,这是一种新颖的 VLM,旨在进行自主多阶段推理 ...
我们解决了用草图和文本查询检索图像的问题。我们提出任务形成器(文本和草图 Transformer ),这是一种可使用文本说明和草图作为输入的端到端训练模型。我们认为,两种输入方式都以一个单独的方式无法轻易实现的方式相互补充 ...
端到端的自动驾驶面孔在产生多样化,符合规则的轨迹和强有力地通过学习的多方面评估从这些选项中选择最佳途径的挑战。为了应对这些挑战,我们介绍了HMAD,这是一个框架,该框架集成了一个独特的鸟类视图(BEV)基于学习的轨迹提案机制,并具有学识渊博的多标准评分。 HMAD利用BeVformer并采用可学习的锚定查询,从轨迹词典初始化,并通过迭代偏移解码(受扩散驱动器的启发)进行了精制,以产生许多多样化稳定 ...
从动态场景(其中对象随时间移动和变形)估计几何形状仍然是计算机视觉的核心挑战。当前的方法通常依赖于多级管道或全局优化,将问题分解为子任务,例如深度和流程,导致复杂的系统容易出错。在本文中,我们提出了 Motion DUSt3R (MonST3R),这是一种新颖的几何优先方法,可以直接估计动态场景中每个时间步长的几何形状 ...