无监督域适应(UDA)旨在将从注释良好的源域学习的模型调整到目标域,其中仅给出未标记的样本。当前的 UDA 方法通过对齐源特征空间和目标特征空间来学习域不变特征。这种对齐是由统计差异最小化或对抗性训练等约束强加的 ...
大多数现有的无监督域适应(UDA)方法依赖于共享网络来提取域不变特征。然而,当面对多个源域时,优化此类网络涉及更新整个网络的参数,这使得计算成本昂贵且具有挑战性,特别是在与最小-最大目标结合时。受到即时学习最新进展的启发,即时学习以计算经济的方式适应下游任务的高容量模型,我们引入了多提示对齐(MPA),这是一种简单而高效的多源 UDA 框架 ...
零样本视频对象分割(ZSVOS)旨在在没有任何人工注释的情况下分割主要移动对象。主流解决方案主要集中于在大规模视频数据集上学习单一模型,这很难推广到未见过的视频。在这项工作中,我们引入了测试时训练(TTT)策略来解决该问题 ...
多模态大型语言模型 (MLLM) 在各种 VQA 任务中表现出了令人印象深刻的性能。然而,它们通常缺乏可解释性,并且难以应对复杂的视觉输入,特别是当输入图像的分辨率很高或可以提供回答问题的关键信息的感兴趣区域很小时。为了应对这些挑战,我们收集并引入了包含 438k 个问答对的大规模 Visual CoT 数据集,并用中间边界框进行注释,突出显示了回答问题所必需的关键区域 ...
情境学习作为自然语言处理的一种新范式,只需少量的提示和示例即可使模型快速适应各种任务。但在计算机视觉中,上下文学习的困难在于任务的输出表示差异很大,因此尚不清楚如何定义视觉模型可以理解并迁移到域外的通用任务提示任务。在这项工作中,我们提出了Painter,一个通才模型,它通过以“图像”为中心的解决方案来解决这些障碍,即将核心视觉任务的输出重新定义为图像,并将任务提示指定为图像 ...
在广泛的数据集上训练的大型模型由于其在各种任务中的高度通用性而成为首选方法。上下文学习(ICL)是自然语言处理中的一种流行策略,通过提供指导性提示但不更新模型参数,将此类模型用于不同的任务。现在正在计算机视觉中探索这个想法,其中将输入输出图像对(称为上下文对)提供给模型,并使用查询图像作为提示来举例说明所需的输出 ...
如何在不进行特定于任务的微调或任何模型修改的情况下使预先训练的视觉模型适应新的下游任务?受 NLP 提示的启发,本文研究了视觉提示:给定测试时新任务的输入输出图像示例和新的输入图像,目标是自动生成与给定示例一致的输出图像。我们证明,如果修复算法已经在正确的数据上进行了训练,那么将这个问题作为简单的图像修复(实际上只是填充串联的视觉提示图像中的一个洞)会非常有效。我们在我们策划的新数据集上训练屏蔽自动编码器 - 来自 Arxiv 上学术论文来源的 88,000 个未标记数据 ...
最近的研究 arXiv:2410.15027 通过简单地连接图像之间的注意力标记,探索了使用扩散变换器 (DiT) 来生成与任务无关的图像。然而,尽管有大量的计算资源,生成的图像的保真度仍然不理想 ...
Vision Transformer 在许多视觉任务中取得了令人印象深刻的性能。然而,它在捕获浅层的局部特征时可能会受到高冗余的影响。因此,利用了局部自注意力或早期卷积,这牺牲了捕获远程依赖性的能力 ...
分词器作为大型模型的基本组件之一,在视觉任务中长期以来一直被忽视甚至误解。大语言模型强大的理解能力的一个关键因素是自然语言分词器利用有意义的单词或子词作为语言的基本元素。相比之下,以 Patch Embed 等基于块的方法为代表的主流视觉分词器依赖无意义的矩形块作为视觉的基本元素,无法像语言中的单词或子词那样有效地发挥作用 ...