虽然当前基于深度学习 (DL) 的波束成形技术已被证明在语音分离方面有效,但它们通常被设计为独立处理窄带 (NB) 频率,这会导致更高的计算成本和推理时间,使其不适合现实世界使用。在本文中,我们提出了基于深度学习的梅尔子带时空波束形成器,用于在汽车环境中执行语音分离,同时减少计算成本和推理时间。与传统的子带(SB)方法相反,我们的框架使用基于梅尔尺度的子带选择策略,确保对存在大多数语音共振峰结构的较低频率进行细粒度处理,并对较高频率进行粗粒度处理 ...
最近,许多基于深度学习的波束形成器被提出用于多通道语音分离。然而,它们中的大多数依赖于事先已知的额外线索,例如说话者特征、面部图像或方向信息。在本文中,我们提出了一种仅给定混合信号的用于方向引导语音分离的端到端波束成形网络,即MIMO-DBnet ...
提出了一种两级多通道语音增强方法,该方法由新型自适应波束形成器、混合最小方差无失真响应(MVDR)、各向同性MVDR(Iso)和新型多通道频谱主成分分析(PCA)去噪组成。在第一阶段,混合 MVDR 使用预定义噪声场模型字典执行多个 MVDR,并选择最小功率结果,这受益于信号无关波束成形的鲁棒性和自适应波束成形的性能。在第二阶段,Hybrid 和 Iso 的结果联合用于基于双通道 PCA 的去噪,以消除 Hybrid 波束形成器产生的“音乐噪声” ...
现代智能眼镜利用先进的音频传感和机器学习技术来提供实时转录和字幕服务,极大地丰富了人类在日常通信中的体验。然而,此类系统经常遇到与环境噪声相关的挑战,导致语音识别和说话人变化检测性能下降。为了提高语音质量,这项工作研究了使用多麦克风阵列的定向源分离 ...
语音领域正在不断发展,以解决更具挑战性的场景,例如多个同时讲话者的多通道录音。鉴于麦克风设置的类型多种多样,我们推出了 UniX 编码器。它是一款专为多种任务而设计的通用编码器,可在单人和多人环境中与任何麦克风阵列配合使用 ...
我们引入了一种实时、多通道语音增强算法,该算法可以保持包括两个语音源的立体声录音的空间线索。认识到每个源都具有独特的空间信息,我们的方法采用双路径结构,通过应用源特定的共带增益来确保空间线索在增强过程中不受影响。该方法还无缝集成了预训练的单声道语音增强,无需对立体声输入进行重新训练 ...
本文总结了我们在约翰霍普金斯大学语音识别系统中为 CHiME-5 挑战赛所做的声学建模工作,以识别由多个麦克风阵列录制的高度重叠的晚宴语音。我们通过比较我们的内部实现和公开可用的工具,探索数据增强方法、神经网络架构、前端语音去混响、波束成形和强大的 i 向量提取。我们最终实现了 69 的单词错误率 ...
Transformer 是现代深度学习的基石。传统上,这些模型依赖多层感知器 (MLP) 层来混合通道之间的信息。在本文中,我们介绍了柯尔莫哥洛夫-阿诺德变换器 (KAT),这是一种新颖的架构,它用柯尔莫哥洛夫-阿诺德网络 (KAN) 层取代 MLP 层,以增强模型的表达能力和性能 ...
我们提出了 TF-GridNet,这是一种在时频 (T-F) 域中运行的新型多路径深度神经网络 (DNN),用于在无回声条件下实现与单声道说话者无关的说话者分离。该模型堆叠了多个多路径块,每个多路径块由帧内频谱模块、子带时间模块和全带自注意力模块组成,以利用局部和全局频谱时间信息进行分离。该模型经过训练可以执行复杂的光谱映射,其中输入混合物的实部和虚部 (RI) 分量被堆叠作为输入特征来预测目标 RI 分量 ...
时域音频分离网络(TasNet)在盲源分离(BSS)方面取得了显着的性能。经典的多通道语音处理框架采用信号估计和波束成形。例如,Beam-TasNet将多通道卷积TasNet(MC-Conv-TasNet)与最小方差无失真响应(MVDR)波束成形相结合,利用数据驱动网络强大的建模能力,通过准确的估计来提高波束成形的性能的语音统计 ...