多说话者环境中的鲁棒语音处理需要有效的语音分离。最近的深度学习系统在解决这个问题方面取得了重大进展,但它仍然具有挑战性,特别是在实时、短延迟应用程序中。大多数方法尝试为混合信号的时频表示中的每个源构建掩模,这不一定是语音分离的最佳表示 ...
基于深度学习的语音去噪仍然面临着提高增强信号感知质量的挑战。我们引入了一个名为感知集成正则化损失(PERL)的通用框架,它建立在感知损失的思想之上。感知损失会阻止某些语音属性的失真,我们使用六个大规模预训练模型对其进行分析:说话人分类、声学模型、说话人嵌入、情感分类和两个自监督语音编码器(PASE+、wav2vec 2. ...
我们考虑图像转换问题,将输入图像转换为输出图像。针对此类问题的最新方法通常使用输出图像和真实图像之间的 \emph{per-pixel} 损失来训练前馈卷积神经网络。并行工作表明,可以通过基于从预训练网络中提取的高级特征定义和优化\emph{感知}损失函数来生成高质量图像 ...
语音增强(SE)旨在提高语音质量和清晰度,这两者都与可能携带语言信息的语音片段的平滑过渡有关,例如,语音片段。电话和音节 ...
本文介绍了专为真无线立体声 (TWS) 耳塞在设备上使用而定制的语音增强解决方案。该解决方案经过专门设计,可在激活主动噪声消除 (ANC) 的情况下支持嘈杂环境中的对话。在这种情况下,语音增强模型的主要挑战来自计算复杂性,它限制了设备上的使用,并且延迟必须小于 3 毫秒才能保留实时对话 ...
在本文中,我们提出了 NISQA 语音质量预测模型的更新,该模型重点关注通信网络中发生的失真。与之前的版本相比,该模型是端到端训练的,时间依赖性建模和时间池是通过自注意力机制实现的。除了总体语音质量之外,该模型还预测四个语音质量维度:噪声、色彩、不连续性和响度,从而更深入地了解质量下降的原因 ...
测量语音信号的质量和清晰度通常是语音处理系统开发中的关键步骤。为了实现这一点,已经开发了多种在不同假设下衡量质量和清晰度的指标。通过本文,我们介绍了使用深度神经网络来估计此类已知指标的工具和一组模型 ...
人类主观评价是评估针对人类感知优化的语音质量的黄金标准。感知客观指标可作为主观分数的代理。传统且广泛使用的指标需要参考干净的语音信号,而这在实际录音中是不可用的 ...
条件生成对抗网络 (GAN) 中的对抗损失并不是为了直接优化目标任务的评估指标而设计的,因此可能并不总是指导 GAN 中的生成器生成具有改进指标分数的数据。为了克服这个问题,我们提出了一种新颖的 MetricGAN 方法,旨在针对一个或多个评估指标优化生成器。而且,基于MetricGAN,生成数据的度量分数也可以由用户任意指定 ...
最近,卷积增强 Transformer (Conformer)在自动语音识别(ASR)和时域语音增强(SE)方面取得了可喜的性能,因为它可以捕获语音信号中的局部和全局依赖性。在本文中,我们提出了一种基于一致性的度量生成对抗网络(CMGAN),用于时频(TF)域的SE。在生成器中,我们利用两级构象块通过对时间和频率依赖性进行建模来聚合所有幅度和复杂的频谱图信息 ...