目标说话人提取的目的是在注册话语或称为锚点的指导下,从多个声源的组合中分离出特定说话人的声音。当前的方法主要从锚点导出说话人嵌入并将其集成到分离网络中以分离目标说话人的语音。然而,说话人嵌入的表示过于简单,通常只是一个 1*1024 向量 ...
目标说话人自动语音识别(ASR)旨在从多个说话者重叠的话语中转录目标说话人所需的语音。大多数现有的目标说话人 ASR (TS-ASR) 方法要么从头开始训练,要么对预训练模型进行完全微调,导致训练成本高昂,并且不适用于大型基础模型。这项工作利用即时调整(一种参数高效的微调方法)将大规模单说话者 ASR 模型 Whisper 扩展到 TS-ASR ...
大规模预训练的自我监督学习(SSL)模型在语音相关任务中表现出了显着的进步。然而,这些模型在复杂的多说话者场景中的使用,例如在混合中提取目标说话者,尚未得到充分评估。在本文中,我们引入目标语音提取(TSE)作为一种新颖的下游任务来评估预训练 SSL 模型的特征提取能力 ...
预训练的自监督学习(SSL)模型在各种语音任务中取得了显着的成功。然而,它们在目标语音提取(TSE)方面的潜力尚未得到充分利用。 TSE 的目标是在注册话语引导的混合中提取目标说话者的语音 ...
我们引入了一项名为“目标语音二值化”的新颖任务,旨在确定音频信号中“目标事件何时发生”。我们设计了一种称为提示驱动目标语音分类(PTSD)的神经架构,它与指定感兴趣的目标语音事件的各种提示一起工作。我们使用源自 Librispeech 的 sim2spk、sim3spk 和 sim4spk 数据集来训练和评估 PTSD ...
用于会议预处理的连续语音分离最近成为一个热点研究课题。与话语级语音分离中的数据相比,会议式音频流持续时间更长,发言者数量不确定。我们采用时域语音分离方法和最近提出的Graph-PIT来构建超低延迟的在线语音分离模型,这对于实际应用非常重要 ...
使用多个麦克风进行语音增强的主要优点是可以使用空间滤波来补充时间频谱处理。在传统设置中,线性空间滤波(波束成形)和单通道后置滤波通常是分开执行的。相比之下,有一种趋势是采用深度神经网络(DNN)来学习联合空间和时间谱非线性滤波器,这意味着线性处理模型的限制以及空间和时间的单独处理的限制。光谱信息有可能被克服 ...
尽管大型语言模型 (LLM) 已显示出实现类人对话的前景,但它们主要是在文本数据上进行预训练的。合并音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低阶适应(FLoRA)技术,该技术可以有效地调整预训练的单峰 LLM,以通过低阶适应消耗新的、以前未见过的模态 ...
我们提出了一种神经网络模型,可以使用两个麦克风在不同角度区域将目标语音源与干扰源分开。该模型使用全向麦克风通过模拟房间脉冲响应 (RIR) 进行训练,无需收集真实的 RIR。通过依赖特定的角度区域和多房间模拟,该模型利用一致的到达时间差 (TDOA) 线索(或我们所说的延迟对比度)来分离目标和干扰源,同时在各种混响环境中保持鲁棒性 ...
我们提出了一种音频到音频的神经网络模型,可以学习对旧音乐录音进行降噪。我们的模型通过短时傅立叶变换 (STFT) 在内部将其输入转换为时频表示,并使用卷积神经网络处理生成的复杂频谱图。该网络在合成噪声音乐数据集上进行了重建和对抗目标的训练,该数据集是通过将干净的音乐与从旧录音的安静片段中提取的真实噪声样本混合而创建的 ...