我们推出了 Pyroomacoustics,这是一个旨在快速开发和测试音频阵列处理算法的软件包。该软件包的内容可分为三个主要部分:直观的Python面向对象界面,可快速构建涉及2D和3D房间中多个声源和麦克风的不同模拟场景;一般多面体房间图像源模型的快速 C 实现,可有效生成房间脉冲响应并模拟源和接收器之间的传播;最后,波束成形、测向和自适应滤波的流行算法的参考实现。它们共同形成一个包,可以通过显着减少性能评估步骤中的实现开销来加快新算法的上市时间 ...
以前用于预测房间声学参数和语音质量指标的方法主要集中在单通道情况,其中针对单个录音设备预测房间声学和平均意见得分 (MOS)。然而,具有多个记录设备的房间的基于质量的设备选择可能会受益于多通道方法,其中并行预测多个设备的描述性度量。根据我们的假设,即模型可能受益于多通道训练,我们开发了一个多通道模型,用于并行五个通道的联合 MOS 和室内声学预测 (MOSRA) ...
单通道目标说话者分离 (TSS) 的目的是在给定说话者的注册话语的情况下,从多个说话者的混合中提取该说话者的声音。典型的深度学习 TSS 框架由获取注册说话人嵌入的上游模型和根据嵌入执行分离的下游模型组成。在本文中,我们研究了注册嵌入的几个重要但被忽视的方面,包括广泛使用的说话人识别嵌入的适用性、log-mel 滤波器组和自监督嵌入的引入,以及嵌入的跨数据集泛化能力 ...
在没有显式监督的情况下学习数据表示的自监督学习(SSL)方法在语音处理任务中很受欢迎,特别是对于单说话者应用程序。然而,这些模型在多说话者场景中的性能通常会下降(可能是由于域不匹配),这严重限制了它们在此类应用中的使用。在本文中,我们研究了两种条件下上游 SSL 模型对多说话者自动语音识别 (ASR) 任务的适应性 ...
与无条件语音增强模型相比,个性化语音增强(PSE)模型由于能够去除背景噪声之外的干扰语音,因此取得了有希望的结果。与无条件语音增强不同,因果 PSE 模型有时可能会错误地删除目标语音。当目标说话者长时间保持沉默时,PSE 模型也容易泄漏干扰语音 ...
目标语音提取 (TSE) 系统旨在从多说话者混合物中提取目标语音。大多数现有 TSE 网络的流行训练目标是增强提取的语音波形的重建性能。然而,据报道,具有较高重建性能的TSE系统在实践中仍可能遇到低质量的体验问题 ...
目标说话者信息可用于语音增强 (SE) 模型,以更有效地提取所需的语音。之前的工作通过级联或仿射变换将说话人嵌入到语音增强模型中。在本文中,我们提出了一个说话者注意模块来计算说话者嵌入和中间特征之间的注意分数,用于重新调整特征 ...
神经传感器在标准语音识别基准上已达到人类水平的性能。然而,在存在串扰的情况下,它们的性能会显着降低,特别是当主扬声器的信噪比较低时。锚定语音识别是指使用来自锚定片段(例如,锚定片段)的信息的一类方法 ...
我们提出了 DiffSpEx,一种通过随机微分方程基于分数的生成模型的生成目标说话人提取方法。 DiffSpEx 在复杂的短时傅里叶变换域中部署连续时间随机扩散过程,从目标说话者源开始,收敛到以源混合为中心的高斯分布。对于逆时过程,参数化得分函数以目标说话人嵌入为条件,以从混合源中提取目标说话人 ...
基于 Jeffreys Divergence,提出了一种新的深度神经网络说话人识别损失函数。将这种散度添加到交叉熵损失函数中可以最大化输出分布的目标值,同时平滑非目标值。该目标函数提供了高度判别性的特征 ...