作为机器学习,元学习或学习学习的子集,旨在通过使用先验知识和经验来提高模型的能力。元学习范式可以适当地应对传统学习方法的常规挑战,例如样本数量不足,领域变化和概括。这些独特的特征位置元学习是在各种医疗保健环境中开发有影响力的解决方案的合适选择,在各种医疗保健环境中,可用数据通常不足,并且数据收集方法不同 ...
语义细分,对于从自动驾驶到机器人技术的应用至关重要,在收集大型注释数据集的域中面临重大挑战,这是困难或昂贵的。在这种情况下,例如医学和农业,训练图像的稀缺性阻碍了进步。引入了很少的语义细分,这是计算机视觉中的新任务,旨在设计能够仅使用几个示例来细分新的语义类别的模型 ...
跨域少数声语义分割(CD-FSS)旨在训练通用模型,这些模型可以通过几个标记的图像从不同域进行分割类别。以前的工作证明了特征转化在解决CD-FSS中的有效性。但是,他们完全依靠支持图像进行特征转换,并且反复利用每个班级的一些支持图像很容易导致过度拟合和忽略级别的外观差异 ...
知识蒸馏(KD)旨在利用来自大型预训练的教师网络的知识来学习紧凑的学生网络,在该知识中,两个网络均经过来自同一分布的数据培训。但是,在实际应用中,可能需要学生网络在新方案中执行(即 ...
通用跨域检索(UCDR)的目标是在广义测试方案中实现稳健的性能,其中数据可能属于训练期间严格未知的域和类别。最近,具有迅速调整的预训练模型显示出强大的概括功能,并在各种下游任务中取得了值得注意的成就,例如少数学习和视频文本检索。但是,将它们直接应用于UCDR可能不足以处理两个域移动(i ...
尽管大型视觉模型(LVM)在图像理解中表现出显着的潜力,但由于采用了大规模预训练,该段的任何模型(SAM)也在图像分割领域取得了巨大成功,支持了灵活的交互性提示和强大的学习能力。但是,山姆的性能通常在跨域和几乎没有射击的应用中缺乏。以前的工作在将先验知识从基本模型转移到新应用程序方面的表现较差 ...
我们提出了Seg-TTO,这是一个用于零射击,开放式语义分段(OVSS)的新型框架,旨在在专门的域任务中表现出色。虽然当前的开放词汇方法在零摄影设置下在标准细分基准上显示出令人印象深刻的性能,但它们在高度域特异性的数据集上的监督对应物中都没有。我们专注于针对特定的测试时间优化,以解决此差距 ...
医学视觉问题回答(VQA)是一个重要的挑战,因为它会导致更快,更准确的诊断和治疗决策。大多数现有方法将其作为多类分类问题将其限制在预定义的封闭式策划答案中。我们专注于开放式的VQA,并以语言模型的最新进展为动机,将其视为一项生成任务 ...
视觉问答(VQA)被称为人工智能完成的任务,因为它需要理解、推理和推断视觉和语言内容。在过去的几年里,人们针对 VQA 问题提出了多种神经架构。然而,由于需要高级泛化和推理技能,因此在零样本 VQA 中取得成功仍然是一个挑战 ...
这项研究探讨了使用生成对抗网络(GAN),自动编码器和注意机制改善视觉问题答案(VQA)的创新方法。利用平衡的VQA数据集,我们研究了三种不同的策略。首先,基于GAN的方法旨在生成以图像和问题输入为条件的答案嵌入,从而表现出潜在的,但在更复杂的任务中挣扎 ...