近年来,人工智能(AI)及其应用引起了人们的极大兴趣。这一成就可部分归功于人工智能子领域的进步,包括机器学习 (ML)、计算机视觉 (CV) 和自然语言处理 (NLP)。深度学习是机器学习的一个子领域,采用人工神经网络概念,使这些领域实现了最快速的增长 ...
视觉问题回答需要一个系统来提供准确的自然语言答案,并给定图像和自然语言问题。但是,人们广泛认识到,以前的通用VQA方法通常表现出记忆训练数据中存在的偏见而不是学习适当的行为,例如在预测答案之前对图像进行接地。因此,这些方法通常达到较高的分布,但分布性能较差 ...
我们提出了 Answer-Me,一个任务感知的多任务框架,它统一了各种问答任务,例如视觉问答、视觉蕴涵、视觉推理。与之前使用对比或生成字幕训练的作品相比,我们提出了一种新颖而简单的方法来预训练视觉语言联合模型,该模型也是多任务的。预训练仅使用噪声图像字幕数据,并且被制定为使用具有强大语言编码器和解码器的端到端的整个架构 ...
提示转移(PoT)是最近提出的一种改进提示调整的方法,通过使用在类似源任务上训练的现有提示来初始化目标提示。然而,这种普通的 PoT 方法通常会实现次优性能,因为(i)PoT 对源-目标对的相似性很敏感,并且(ii)直接微调目标任务上使用源提示初始化的提示可能会导致忘记从源任务中学到的有用的一般知识。为了解决这些问题,我们提出了一种新的指标来准确预测即时可转移性(关于(i)),以及一种利用知识蒸馏技术有效减轻知识遗忘的新型 PoT 方法(即 PANDA)(关于(ii)) ...
提示调优以特定于任务的学习提示向量为条件,已成为一种数据高效和参数高效的方法,用于使大型预训练视觉语言模型适应多个下游任务。然而,现有的方法通常考虑从头开始独立地学习每个任务的提示向量,从而无法利用不同视觉语言任务之间丰富的可共享知识。在本文中,我们提出了多任务视觉语言提示调优(MVLPT),它将跨任务知识纳入视觉语言模型的提示调优中 ...
随着深度学习的出现,许多密集预测任务,即产生像素级预测的任务,性能得到了显着提高 ...
用于密集预测的多任务学习已成为计算机视觉的关键领域,能够同时处理不同但相互关联的像素级预测任务。然而,最先进 (SoTA) 模型的大量计算需求往往限制其广泛部署。本文通过引入网络二值化来压缩资源密集型多任务密集预测器来解决这一挑战 ...
MTL 是一种学习范例,可以有效地利用特定任务和共享信息来同时解决多个相关任务。与 STL 相比,MTL 提供了一系列优点,可以增强训练过程和推理效率。 MTL 的主要优势包括简化的模型架构、性能增强和跨领域通用性 ...
经典机器学习假设训练集和测试集来自相同的分布。因此,从标记的训练数据中学习的模型预计在测试数据上表现良好。然而,在实际应用中,由于许多因素,例如训练数据和测试数据来自不同的分布,这种假设可能并不总是成立 ...
通用域适应(UniDA)的目标是在存在协变量和标签转移的情况下进行知识转移。最近,出现了无源通用域适应(SF-UniDA),无需访问源数据即可实现UniDA,由于数据保护策略,这往往更加实用。主要挑战在于确定协变量偏移样本是否属于目标私有未知类别 ...