大规模训练的视力语言模型(VLM)对于跨不同任务的转移学习至关重要。但是,通过有限的少量数据对这些模型进行调整通常会导致过度拟合,从而降低了他们在新任务上的性能。为了解决这个问题,我们提出了一种新颖的多模式表示学习(MMRL)框架,该框架引入了共同的,可学习的和模态的表示空间 ...
为了解决深度神经网络(DNN)的巨大培训数据集及其高度计算问题,所谓的教师学生(T-S)DNN已提出了将T-DNN的知识转移到S-DNN的知识。但是,现有的T-S-DNN的使用范围有限,而T-DNN的知识不足以将其转移到S-DNN。为了提高T-DNN转移知识的质量,我们提出了使用单数值分解(SVD)的新知识蒸馏 ...
现代深层神经网络(DNN)通常需要高度的记忆消耗和较大的计算负载。为了在边缘或移动设备上有效部署DNN算法,已经探索了一系列DNN压缩算法,包括分解方法。分解方法与两个或多个低级矩阵的乘法近似DNN层的重量矩阵 ...
触觉为人类和机器人的感知和交互能力提供了重要的支持和增强。然而,与触觉相关的多模态研究主要集中在视觉和触觉模态,在语言领域的探索有限。除了词汇之外,句子级描述还包含更丰富的语义 ...
触觉在多模态大型模型和具身智能的发展中起着至关重要的作用。为了以尽可能低的成本收集触觉数据,一系列研究尝试通过视觉到触摸图像转换来生成触觉图像。然而,与文本模态相比,视觉模态驱动的触觉生成无法准确描述人类的触觉 ...
最先进的参数有效的微调方法依赖于审前的语言模型层之间引入适配器模块。但是,此类模块是针对每个任务分别训练的,因此不能启用跨任务共享信息。在本文中,我们证明我们可以使用共享的超网络来学习所有层和任务的适配器参数,这些参数在 Transformer 模型中的任务,适配器位置和图层ID上生成它们 ...
我们提出条件适配器(CODA),这是一种参数有效的传输学习方法,也提高了推理效率。 CODA概括了超出标准适配器方法,以实现一种使用条件计算来平衡速度和准确性的新方法。从现有的密集预处理模型开始,CODA将稀疏的激活以及少量的新参数和轻重量训练阶段加入 ...
随着预训练的语言模型(PLM)的模型大小迅速增长,对于模型培训和存储而言,完整的微调变得非常昂贵。在视觉和语言(VL)中,提出了参数有效的调整(PET)技术来整合模块化修饰(例如 ...
软提示学习最近成为使用一些培训示例将V&L模型适应下游任务的首选方法之一。但是,当在同一域中看不见的类别测试时,当前的方法显着过度拟合了训练数据,患有大量准确性降解。为此,在本文中,我们做出以下4个贡献:(1)减轻基类过度适应,我们提出了一种新颖的语言意识到的软提示(LASP)学习方法(LASP)学习方法,即文本到文本跨性别损失损失,以最大程度地提示所学习的提示的可能性,以与预先定义的手工制作的文本提示正确地分类 ...
诸如剪辑之类的大型预训练视觉模型(例如剪辑)在不需要重新培训的情况下展示了各种图像分类任务的最先进性能。几乎没有弹出的剪辑与现有的专业体系结构进行了竞争,这些架构经过了下游任务的培训。最近的研究表明,使用轻量级适应方法可以进一步提高剪辑的性能 ...