深层抑制(DNS)挑战旨在促进抑制噪声领域的创新,以实现优越的感知语音质量。这是第四次DNS挑战,以前的版本在Interspeech 2020,ICASSP 2021和Interspeech 2021举行。我们开放源数据集和测试集,用于研究人员培训其深层噪声抑制模型,以及基于ITU-T P.的主观评估框架 ...
在本文中,我们提出了一种新型的神经网络结构,即\ emph {feedforward顺序存储网络(FSMN)},以在不使用复发反馈的情况下对时间序列的长期依赖性进行建模。拟议的FSMN是标准完全连接的馈电神经网络,配备了其隐藏层中一些可学习的内存块。存储器块使用窃听的延迟线结构将长上下文信息编码为固定尺寸表示形式,作为短期内存机制 ...
言语增强已从深度学习的成功中受益,从可理解性和感知质量方面受益。常规的时频(TF)域方法着重于通过天真的卷积神经网络(CNN)或经常性神经网络(RNN)预测TF面罩或语音频谱。一些最近的研究使用复杂值谱图作为训练目标,但在实现的网络中进行训练,分别预测了相位成分或实际和虚构部分 ...
卷积复发网络(CRN)整合了卷积编码器 - 编码器(CED)结构和经常性结构的结构,已经实现了单声道语音增强的有希望的表现。但是,由于CED的卷积中的接收场有限,跨频率上下文的特征表示受到高度限制。在本文中,我们提出了卷积复发编码器(CRED)结构,以沿频率轴增强特征表示 ...
我们建议使用新型的多模式联合训练框架MMAUDIO合成视频和可选文本条件,以合成高质量和同步音频。与仅在(有限)视频数据的情况下进行的单模式训练相反,MMAUDIO是通过更大尺寸,容易获得的文本原告数据共同培训的,以学会生成语义上一致的高质量音频样本。此外,我们通过条件同步模块改善了视听同步,该模块将视频条件与框架级别的音频潜在的条件保持一致 ...
自动视频活动识别至关重要,包括监视,医疗保健和机器人技术。但是,当训练和测试数据源于不同领域时,识别视频数据中的人类活动变得具有挑战性。因此,适应不可预见的领域的领域概括是必不可少的 ...
在部署到现实世界条件时,无法看见的域的概括能力对于机器学习模型至关重要。我们研究了领域概括的具有挑战性的问题,即 ...
域转移是指一个众所周知的问题,即在一个源域中训练的模型在应用于具有不同统计数据的目标域时的性能很差。 {域概括}(DG)技术试图通过产生通过设计良好地推广到新型测试域的模型来减轻此问题。我们提出了一种用于域概括的新颖{meta学习}方法 ...
域的概括模型学会将其推广到以前看不见的域,但遭受了预测不确定性和域的转移。在本文中,我们解决了这两个问题。我们引入了用于域概括的概率元学习模型,其中将跨域共享的分类器参数建模为分布 ...
机器学习系统通常假定培训和测试集的分布密切匹配。但是,在现实世界中,此类系统的关键要求是它们推广到看不见的领域的能力。在这里,我们提出了一个域间梯度匹配目标,该目标通过最大化不同域的梯度之间的内部产物来靶向域的概括 ...