视听语音识别由于其对声学噪声的鲁棒性而受到广泛关注。最近,自动、视觉和视听语音识别(分别为 ASR、VSR 和 AV-ASR)的性能得到了显着提高,这主要归功于更大的模型和训练集的使用。然而,数据集的准确标记既耗时又昂贵。因此,在这项工作中,我们研究使用未标记数据集自动生成的转录来增加训练集大小。为此,我们使用公开的预训练 ASR 模型来自动转录未标记的数据集,例如 AVSpeech 和 VoxCeleb2。然后,我们在增强训练集上训练 ASR、VSR 和 AV-ASR 模型,该训练集由 LRS2 和 LRS3 数据集以及附加的自动转录数据组成。我们证明,增加训练集的大小(文献中的最新趋势)会导致 WER 减少,尽管使用了嘈杂的转录。所提出的模型在 LRS2 和 LRS3 上的 AV-ASR 上实现了新的最先进的性能。特别是,它在 LRS3 上实现了 0.9% 的 WER,比当前最先进的方法相对提高了 30%,并且优于在非公开数据集上训练的方法,训练数据多了 26 倍 ...
听觉、视觉和视听语音识别(分别为 ASR、VSR 和 AVSR)的研究传统上都是独立进行的。即使最近同时解决两个或所有三个任务的自我监督研究也往往会产生单独的模型,导致不相交的推理管道,增加内存需求和冗余。本文提出了这些系统的统一训练策略。我们证明,为所有三项任务训练单个模型可以增强 VSR 和 AVSR 性能,克服从头开始训练时的典型优化挑战。此外,我们引入了一种贪婪的伪标记方法来更有效地利用未标记的样本,解决相关自监督方法的缺点。最后,我们在我们的框架内开发了一种自我监督的预训练方法,并证明了其与我们的半监督方法的有效性。尽管对所有任务使用单一模型,但与 ASR、VSR 和 AVSR 的 LRS3 和 LRS2 以及新发布的 WildVSR 数据集上的最新方法相比,我们的统一方法实现了最先进的性能。代码和模型可从此 https URL 获取 ...
在本文中,我们提出了 VideoLLaMA 2,这是一组视频大语言模型 (Video-LLM),旨在增强面向视频和音频的任务中的时空建模和音频理解。 VideoLLaMA 2 在其前身的基础上集成了定制的时空卷积 (STC) 连接器,可有效捕获视频数据复杂的空间和时间动态。此外,我们通过联合训练将音频分支集成到模型中,从而通过无缝合并音频提示来丰富模型的多模态理解能力。对多项选择视频问答(MC-VQA)、开放式视频问答(OE-VQA)和视频字幕(VC)任务的综合评估表明,VideoLLaMA 2 在开源模型中始终取得有竞争力的结果,甚至在多个基准上接近一些专有模型。此外,与现有模型相比,VideoLLaMA 2 在纯音频和音频视频问答(AQA 和 OE-AVQA)基准方面表现出合理的改进。这些进步凸显了 VideoLLaMA 2 在多模态理解方面的卓越性能,为智能视频分析系统树立了新标准。所有模型都是公开的,以方便进一步的研究 ...
多模态大语言模型(MLLM)赋予了 LLM 感知和理解多模态信号的能力。然而,大多数现有的MLLM主要采用在粗略对齐的图像文本对上进行预训练的视觉编码器,导致视觉知识的提取和推理不足。为了解决这个问题,我们设计了一种双级视觉知识增强多模态大语言模型(LION),它通过在两个层面注入视觉知识来增强 MLLM 的能力。 1)逐步融入细粒度的空间感知视觉知识。我们设计了一个与区域级视觉语言(VL)任务配合的视觉聚合器,将细粒度的空间感知视觉知识融入到 MLLM 中。为了缓解合并过程中图像级和区域级 VL 任务之间的冲突,我们设计了一种具有混合适配器的专用分阶段指令调整策略。这种渐进的合并方案有助于这两种VL任务之间的相互促进。 2)高级语义视觉证据的软提示。我们通过利用不同的图像标签来促进 MLLM 的高级语义视觉证据。为了减轻不完美的预测标签造成的潜在影响,我们提出了一种软提示方法,通过将可学习的标记嵌入到定制的文本指令中。对多个多模态基准的综合实验证明了我们模型的优越性(例如,与 InstructBLIP 相比,VSR 上的准确度提高了 5%,TextCaps 上的 CIDEr 准确度比 InstructBLIP 提高了 3%,RefCOCOg 的准确度比 Kosmos-2 提高了 5%) ...
视听语音识别 (AVSR) 通过集成视觉提示来增强嘈杂环境中的鲁棒性。虽然最近的进展将大型语言模型 (LLM) 集成到 AVSR 中,但其高计算成本阻碍了在资源受限环境中的部署。为了解决这个问题,我们提出了 Llama-SMoP,这是一种高效的多模式 LLM ,它采用稀疏混合投影仪 (SMoP) 模块来扩展模型容量,而不增加推理成本。通过结合稀疏门控专家混合 (MoE) 投影仪,Llama-SMoP 可以使用更小的 LLM,同时保持强大的性能。我们探索了三种 SMoP 配置,并表明 Llama-SMoP DEDR(不相交专家、不相交路由器)使用特定于模态的路由器和专家,在 ASR、VSR 和 AVSR 任务上实现了卓越的性能。消融研究证实了其在专家激活、可扩展性和噪声鲁棒性方面的有效性 ...
自我监督编码器的进步提高了视觉语音识别(VSR)。将这些编码器与LLM解码器集成的最新方法提高了转录精度。但是,尚不清楚这些收益是源于视觉理解还是更强大的语言建模。在这项工作中,我们通过冻结或选择性地更新视觉编码器,缩放解码器的大小,比较适应策略和体系结构以及在LRS2,LRS3及其组合中进行不同的培训数据来系统地评估LLM解码器 ...
大型语言模型 (LLM) 最近在视听语音识别 (AVSR) 方面显示出强大的潜力,但其高计算需求和对标记粒度的敏感性限制了它们在资源有限的环境中的实用性。 Token 压缩方法可以降低推理成本,但需要提前固定压缩率并产生单个固定长度的输出,无法灵活地平衡推理时的信息密度和效率。 Matryoshka 表示学习 (MRL) 通过使单个模型能够跨多个 Token 粒度运行来解决这个问题,从而允许动态调整压缩率。然而,当前基于 MRL 的方法在训练期间独立处理每个尺度,限制了跨尺度泛化、高压缩下的鲁棒性和可解释性。为了克服这些限制,我们提出了 MoME(俄罗斯套娃专家混合),这是一种新颖的框架,它将稀疏专家混合 (MoE) 集成到基于 MRL 的 AVSR LLM 中。 MoME 通过前 k 名路由和共享专家增强了冻结的 LLM ,从而允许跨规模和模式进行动态容量分配。共享路由器促进跨粒度的一致专家激活,使压缩序列能够从以较低压缩学习的表示中受益。 LRS2 和 LRS3 上的实验表明,MoME 在 AVSR、ASR 和 VSR 任务中实现了最先进的性能,同时需要显着减少的参数并在噪声下保持鲁棒性。 MoME 将 MRL 的适应性与 MoE 的效率相结合,为资源感知语音识别提供可扩展且可解释的解决方案 ...
大型语言模型 (LLM) 最近拥有先进的听觉语音识别 (ASR)、视觉语音识别 (VSR) 和视听语音识别 (AVSR)。然而,对其微调下的内部动态的了解仍然有限。在自然语言处理中,最近的工作揭示了注意力汇、吸引不成比例的高度关注的 Token ,以及相关的大规模激活,其中汇 Token 的某些特征在 LLM 中表现出巨大的激活。在这项工作中,我们是第一个在多模态语音识别中研究这些现象的人。通过对视听 LLM 的详细分析,我们不仅在 BOS Token 上,而且在 ASR、VSR 和 AVSR 的中间低语义 Token 上识别出注意力集中和大量激活。我们表明,大量激活源自 MLP 层,并对应于所有接收器 Token 的固定特征索引。我们进一步表明,中间接收器 Token 与 BOS Token 表现出高度的余弦相似性,从而增强了注意力和激活度。基于这些见解,我们引入了一个简单的去相关损失,可以减少 BOS 和其他 Token 之间的余弦相似性,从而有效地减轻中间汇和大规模激活。此外,我们的方法提高了高视听特征下采样下的字错误率(WER),同时在较低下采样率下保持稳定 ...
统一语音识别旨在在单一模型框架内执行听觉、视觉和视听语音识别。虽然语音基础模型(SFM)在听觉任务中表现出了卓越的性能,但它们对多模态场景的适应仍待探索。本文提出了 UASR-LLM,这是一种新颖的框架,通过利用大型语言模型 (LLM) 作为文本解码器,使冻结的 SFM 适应统一的 VSR、ASR 和 AVSR 任务。我们的方法通过视觉注入模块将视觉表示引入多个 SFM 层,从而实现多模式输入处理和统一的隐藏表示。增强的 SFM 通过前馈适配器与仅解码器的 LLM 连接,其中串联的表示和指令提示指导语音转录。我们实施两阶段训练策略:视觉注入预训练,然后是语音识别微调。 SFM 参数在整个训练过程中保持冻结,最初仅优化视觉注入模块,随后使用 LoRA 参数对 LLM 进行微调。实验结果表明,在干净和嘈杂的条件下,VSR、ASR 和 AVSR 任务的性能均优于最先进的基线。消融研究证实了各种 SFM 和 LLM 的普遍性,验证了所提出的培训策略 ...
视觉语音识别 (VSR) 旨在从无声唇动视频中转录语音内容,由于严重的视位歧义和普遍存在的同音词,在普通话中尤其具有挑战性。我们提出了 VALLR-Pin,一个两阶段的普通话 VSR 框架,它通过明确地将拼音合并为中间表示来扩展 VALLR 架构。在第一阶段,共享视觉编码器向双解码器提供信号,共同预测普通话字符及其相应的拼音序列,从而鼓励更强大的视觉语言表示。在第二阶段,基于 LLM 的细化模块将预测的拼音序列与 N 个最佳字符假设列表一起使用,以解决同音字引起的歧义。为了进一步使 LLM 适应视觉识别错误,我们根据模型生成的拼音文本对构建的合成指令数据对其进行微调,从而实现错误感知纠正。对公共普通话 VSR 基准的实验表明,VALLR-Pin 在多说话人条件下持续提高转录准确性,凸显了将语音指导与轻量级 LLM 细化相结合的有效性 ...