近似忘却作为一种有效更新 LLM 的方法而受到欢迎,因此它的行为(大致)就像没有在数据子集上进行过训练一样。然而,现有的方法在实践中很脆弱,很容易受到攻击而泄露所谓的未学过的信息。为了缓解近似遗忘的问题,我们提出了 SIFT-Masks(SIgn-Fixed Tuning-Masks),这是一种基于模型合并的精确遗忘方法。 SIFT-Masks 解决了标准模型合并的两个关键限制:(1)合并大量任务会严重损害效用; (2)通过跨任务共享额外信息来提高效用的方法使得精确遗忘的成本过高。 SIFT-Masks 通过以下方式解决了这些问题:(1) 应用局部掩模来恢复特定于任务的性能; (2) 约束微调以与全局符号向量对齐,作为在合并之前独立确定掩模的轻量级方法。在我们合并多达 500 个模型的四种设置中,SIFT-Masks 比简单合并提高了 5-80% 的准确度,并且与其他合并基线相比,精确取消学习所需的计算量减少了 250 倍 ...
迁移学习——即在下游任务上进一步微调预训练模型——可以带来显着的优势,包括改进的下游性能、更快的收敛和更好的样本效率。这些优点导致了针对特定任务的微调模型的激增,这些模型通常只能执行一项任务并且不能相互受益。最近,模型合并技术作为一种解决方案出现,将多个特定于任务的模型组合成单个多任务模型,而无需执行额外的训练。然而,现有的合并方法往往忽略了不同模型参数之间的干扰,导致合并多个模型时性能大幅下降。在本文中,我们证明了先前的合并技术由于两个主要干扰源而无意中丢失了有价值的信息:(a)由于冗余参数值引起的干扰;(b)跨模型给定参数值的符号不一致。为了解决这个问题,我们提出了我们的方法 TRIM、ELECT SIGN & MERGE (TIES-Merging),它在合并模型时引入了三个新颖的步骤:(1) 重置在微调期间仅改变少量的参数,(2) 解决符号冲突,以及 (3) 仅合并与最终商定的符号一致的参数。我们发现 TIES-Merging 在不同的设置中优于几种现有方法,涵盖一系列模式、领域、任务数量、模型大小、架构和微调设置。我们进一步分析了不同类型的干扰对模型参数的影响,并强调了解决符号干扰的重要性。我们的代码可在此 https URL 获取 ...
多任务学习(MTL)旨在使模型能够同时处理多个任务。最近一项称为任务算术的发展表明,多个模型(每个模型都针对不同的任务进行了微调)可以直接合并到单个模型中以执行 MTL,而无需使用初始训练数据进行重新训练过程。然而,这种直接添加模型通常会导致合并模型的整体性能显着恶化。这种下降是由于多个任务之间潜在的冲突和复杂的相关性造成的。因此,出现了如何在不使用原始训练数据的情况下更有效地合并预训练模型的挑战。本文介绍了一种称为自适应模型合并(AdaMerging)的创新技术。这种方法旨在以任务方式或分层方式自主学习模型合并的系数,而不依赖于原始训练数据。具体来说,我们的 AdaMerging 方法作为自动、无监督任务算术方案运行。它利用来自多任务设置的未标记测试样本的熵最小化作为代理目标函数来迭代地细化多个模型的合并系数。我们在八项任务中的实验结果证明了我们提出的 AdaMerging 方案的有效性。与当前最先进的任务算术合并方案相比,AdaMerging 的性能显着提高了 11%。值得注意的是,AdaMerging 在应用于看不见的下游任务时还表现出卓越的泛化能力。此外,它对测试阶段可能发生的数据分布变化显示出显着增强的稳健性 ...
自监督学习已成功用于各种语音相关任务,包括自动语音识别。基于 BERT 的随机投影量化器语音预训练 (BEST-RQ) 在语音识别领域取得了最先进的成果。在这项工作中,我们使用 Kullback-Leibler 散度作为额外的正则化损失和从低级特征聚类导出的每个聚类的多码书扩展来进一步优化 BEST-RQ 方法。 LibriSpeech 的 train-100 split 的初步实验结果表明,通过使用多个码本,在 test-clean 上相对提高了 11.2%,利用交叉熵和 Kullback-Leibler 散度的组合进一步将单词错误率降低了 4.5%。所提出的对完整 LibriSpeech 预训练和微调的优化,使用 6 个码本,在干净测试中相对单词错误率提高了 23.8%,在其他测试中提高了 30.6%。此外,所提出的设置可以加快预训练和微调的收敛速度,并进一步稳定预训练 ...
我们提出了一种简单有效的语音识别自我监督学习方法。该方法学习一个模型来预测掩蔽语音信号,其形式是随机投影量化器生成的离散标签。特别是,量化器使用随机初始化的矩阵来投影语音输入,并在随机初始化的码本中进行最近邻查找。在自监督学习过程中,矩阵和密码本都不会更新。由于随机投影量化器未经训练并且与语音识别模型分离,因此该设计使得该方法灵活并且与通用语音识别架构兼容。在 LibriSpeech 上,我们的方法使用非流模型的自监督学习实现了与之前的工作相似的单词错误率,并且比使用流模型的 wav2vec 2.0 和 w2v-BERT 提供了更低的单词错误率和延迟。在多语言任务上,该方法还比 wav2vec 2.0 和 w2v-BERT 提供了显着改进 ...
神经上下文偏差可有效提高对说话者上下文中关键短语的自动语音识别 (ASR),特别是那些在训练数据中不常见的短语。这项工作提出了上下文文本注入 (CTI) 来增强上下文 ASR。 CTI 不仅利用配对的语音文本数据,还利用更大的未配对文本语料库来优化 ASR 模型及其偏差组件。不成对的文本被转换为类似语音的表示,并用于引导模型对相关偏见短语的注意力。此外,我们引入了上下文文本注入(CTI)最小错误率(MWER)训练,可以最大限度地减少当不成对的文本注入到模型中时由上下文偏差引起的预期 WER。实验表明,具有 1000 亿个文本句子的 CTI 通过强大的神经偏置模型可以实现高达 43.3% 的相对 WER 降低。 CTI-MWER 进一步相对提高了 23.5% ...
用于自动语音识别 (ASR) 的文本注入,其中使用未配对的纯文本数据来补充配对的音频文本数据,已显示出对单词错误率的有希望的改善。本研究探讨了文本注入在辅助任务中的使用,这些任务是 E2E 模型经常执行的非 ASR 任务。在这项工作中,我们使用联合端到端和内部语言模型训练(JEIT)作为我们的文本注入算法来训练执行两个辅助任务的 ASR 模型。第一个是大写,这是一个非规范化任务。第二个是轮流预测,它试图识别用户是否在数字助理交互中完成了对话轮次。我们的结果表明,我们的文本注入方法提高了长尾数据的大写性能,并提高了轮流检测召回率 ...
这份多模态大语言模型 (MLLM) 调查和应用指南探索了快速发展的 MLLM 领域,研究了它们的架构、应用程序以及对人工智能和生成模型的影响。从基本概念开始,我们深入研究 MLLM 如何集成各种数据类型,包括文本、图像、视频和音频,以使复杂的 AI 系统能够进行跨模式理解和生成。它涵盖了培训方法、架构组件以及各个领域的实际应用等基本主题,从视觉讲故事到增强的可访问性。通过详细的案例研究和技术分析,本文研究了著名的 MLLM 实现,同时解决了可扩展性、稳健性和跨模式学习方面的关键挑战。该权威资源最后讨论了伦理考虑、负责任的人工智能发展和未来方向,提供了理论框架和实践见解。它对 MLLM 的开发和部署中的机遇和挑战提供了平衡的视角,对于对自然语言处理和计算机视觉交叉感兴趣的研究人员、从业者和学生来说非常有价值 ...
人工智能(AI)的快速发展已经彻底改变了许多领域,大型语言模型(LLM)和计算机视觉(CV)系统分别推动了自然语言理解和视觉处理的进步。这些技术的融合促进了多模式人工智能的兴起,实现了涵盖文本、视觉、音频和视频模式的更丰富的跨模式理解。特别是多模态大语言模型(MLLM)已经成为一个强大的框架,在图像文本生成、视觉问答和跨模态检索等任务中展示了令人印象深刻的功能。尽管取得了这些进步,MLLM 的复杂性和规模在可解释性和可解释性方面带来了重大挑战,这对于在高风险应用程序中建立透明度、可信度和可靠性至关重要。本文对 MLLM 的可解释性和可解释性进行了全面的调查,提出了一个新颖的框架,该框架从三个角度对现有研究进行分类:(I)数据,(II)模型,(III)训练和推理。我们系统地分析从 Token 级到嵌入级表示的可解释性,评估与架构分析和设计相关的方法,并探索提高透明度的训练和推理策略。通过比较各种方法,我们确定了它们的优点和局限性,并提出了未来的研究方向,以解决多模态可解释性中尚未解决的挑战。这项调查为提高 MLLM 的可解释性和透明度提供了基础资源,指导研究人员和从业者开发更负责任、更强大的多模式人工智能系统 ...
传统上,遥感中的时间图像分析以变化检测为中心,这标识了在不同时间捕获的图像之间的变化区域。但是,更改检测仍然受到视觉级别解释的关注,通常缺乏上下文或描述性信息。视觉模型(VLM)的兴起通过将视觉信息与自然语言集成,为遥感的时间图像分析引入了一个新的维度,从而为时间图像变化提供了高级解释的途径 ...