卷积复发网络(CRN)整合了卷积编码器 - 编码器(CED)结构和经常性结构的结构,已经实现了单声道语音增强的有希望的表现。但是,由于CED的卷积中的接收场有限,跨频率上下文的特征表示受到高度限制。在本文中,我们提出了卷积复发编码器(CRED)结构,以沿频率轴增强特征表示 ...

0 0 0 0 2025/05/09 arXiv:2206.07293v3 Harry3790

我们建议使用新型的多模式联合训练框架MMAUDIO合成视频和可选文本条件,以合成高质量和同步音频。与仅在(有限)视频数据的情况下进行的单模式训练相反,MMAUDIO是通过更大尺寸,容易获得的文本原告数据共同培训的,以学会生成语义上一致的高质量音频样本。此外,我们通过条件同步模块改善了视听同步,该模块将视频条件与框架级别的音频潜在的条件保持一致 ...

0 0 0 0 2025/04/20 arXiv:2412.15322v2 Harry3790

自动视频活动识别至关重要,包括监视,医疗保健和机器人技术。但是,当训练和测试数据源于不同领域时,识别视频数据中的人类活动变得具有挑战性。因此,适应不可预见的领域的领域概括是必不可少的 ...

0 0 0 0 2025/03/23 arXiv:2503.12678v1 Harry3790

在部署到现实世界条件时,无法看见的域的概括能力对于机器学习模型至关重要。我们研究了领域概括的具有挑战性的问题,即 ...

0 0 0 0 2025/03/19 arXiv:1910.13580v1 Harry3790

域转移是指一个众所周知的问题,即在一个源域中训练的模型在应用于具有不同统计数据的目标域时的性能很差。 {域概括}(DG)技术试图通过产生通过设计良好地推广到新型测试域的模型来减轻此问题。我们提出了一种用于域概括的新颖{meta学习}方法 ...

0 0 0 0 2025/03/19 arXiv:1710.03463v1 Harry3790

域的概括模型学会将其推广到以前看不见的域,但遭受了预测不确定性和域的转移。在本文中,我们解决了这两个问题。我们引入了用于域概括的概率元学习模型,其中将跨域共享的分类器参数建模为分布 ...

0 0 0 0 2025/03/17 arXiv:2007.07645v1 Harry3790

机器学习系统通常假定培训和测试集的分布密切匹配。但是,在现实世界中,此类系统的关键要求是它们推广到看不见的领域的能力。在这里,我们提出了一个域间梯度匹配目标,该目标通过最大化不同域的梯度之间的内部产物来靶向域的概括 ...

0 0 0 0 2025/03/16 arXiv:2104.09937v3 Harry3790