参数效率调整(PEFT)技术(例如低级别适应性(LORA))在大语言模型上提供培训效率,但它们对模型性能的影响仍然有限。最近的努力集成了洛拉和专家的混合物(MOE),以提高PEFT方法的性能。尽管结果有希望,但有关提高MOE洛拉效率的研究仍处于早期阶段 ...
及时调整代表了一种有价值的技术,用于将预训练的视觉语言模型(VLM)调整为各种下游任务。基于COOP的方法的最新进展提出了一组可学习的域共享或图像条件文本 Token ,以促进特定于任务的文本分类器的生成。但是,这些文本 Token 在看不见的域具有有限的概括能力,因为它们无法动态地适应测试类的分布 ...
对比视力语言预训练(称为剪辑)为使用大型图像文本对学习视觉表示提供了新的范式。它通过零照片知识转移在下游任务上表现出令人印象深刻的表现。为了进一步增强剪辑的适应能力,提出的现有方法可以微调额外的可学习模块,从而大大提高了少数弹性的性能,但引入了额外的培训时间和计算资源 ...
大规模训练的视力语言模型(VLM)对于跨不同任务的转移学习至关重要。但是,通过有限的少量数据对这些模型进行调整通常会导致过度拟合,从而降低了他们在新任务上的性能。为了解决这个问题,我们提出了一种新颖的多模式表示学习(MMRL)框架,该框架引入了共同的,可学习的和模态的表示空间 ...
为了解决深度神经网络(DNN)的巨大培训数据集及其高度计算问题,所谓的教师学生(T-S)DNN已提出了将T-DNN的知识转移到S-DNN的知识。但是,现有的T-S-DNN的使用范围有限,而T-DNN的知识不足以将其转移到S-DNN。为了提高T-DNN转移知识的质量,我们提出了使用单数值分解(SVD)的新知识蒸馏 ...
现代深层神经网络(DNN)通常需要高度的记忆消耗和较大的计算负载。为了在边缘或移动设备上有效部署DNN算法,已经探索了一系列DNN压缩算法,包括分解方法。分解方法与两个或多个低级矩阵的乘法近似DNN层的重量矩阵 ...
触觉为人类和机器人的感知和交互能力提供了重要的支持和增强。然而,与触觉相关的多模态研究主要集中在视觉和触觉模态,在语言领域的探索有限。除了词汇之外,句子级描述还包含更丰富的语义 ...
触觉在多模态大型模型和具身智能的发展中起着至关重要的作用。为了以尽可能低的成本收集触觉数据,一系列研究尝试通过视觉到触摸图像转换来生成触觉图像。然而,与文本模态相比,视觉模态驱动的触觉生成无法准确描述人类的触觉 ...
最先进的参数有效的微调方法依赖于审前的语言模型层之间引入适配器模块。但是,此类模块是针对每个任务分别训练的,因此不能启用跨任务共享信息。在本文中,我们证明我们可以使用共享的超网络来学习所有层和任务的适配器参数,这些参数在 Transformer 模型中的任务,适配器位置和图层ID上生成它们 ...
我们提出条件适配器(CODA),这是一种参数有效的传输学习方法,也提高了推理效率。 CODA概括了超出标准适配器方法,以实现一种使用条件计算来平衡速度和准确性的新方法。从现有的密集预处理模型开始,CODA将稀疏的激活以及少量的新参数和轻重量训练阶段加入 ...