卷积复发网络(CRN)整合了卷积编码器 - 编码器(CED)结构和经常性结构的结构,已经实现了单声道语音增强的有希望的表现。但是,由于CED的卷积中的接收场有限,跨频率上下文的特征表示受到高度限制。在本文中,我们提出了卷积复发编码器(CRED)结构,以沿频率轴增强特征表示 ...
我们建议使用新型的多模式联合训练框架MMAUDIO合成视频和可选文本条件,以合成高质量和同步音频。与仅在(有限)视频数据的情况下进行的单模式训练相反,MMAUDIO是通过更大尺寸,容易获得的文本原告数据共同培训的,以学会生成语义上一致的高质量音频样本。此外,我们通过条件同步模块改善了视听同步,该模块将视频条件与框架级别的音频潜在的条件保持一致 ...
自动视频活动识别至关重要,包括监视,医疗保健和机器人技术。但是,当训练和测试数据源于不同领域时,识别视频数据中的人类活动变得具有挑战性。因此,适应不可预见的领域的领域概括是必不可少的 ...
在部署到现实世界条件时,无法看见的域的概括能力对于机器学习模型至关重要。我们研究了领域概括的具有挑战性的问题,即 ...
域转移是指一个众所周知的问题,即在一个源域中训练的模型在应用于具有不同统计数据的目标域时的性能很差。 {域概括}(DG)技术试图通过产生通过设计良好地推广到新型测试域的模型来减轻此问题。我们提出了一种用于域概括的新颖{meta学习}方法 ...
域的概括模型学会将其推广到以前看不见的域,但遭受了预测不确定性和域的转移。在本文中,我们解决了这两个问题。我们引入了用于域概括的概率元学习模型,其中将跨域共享的分类器参数建模为分布 ...
机器学习系统通常假定培训和测试集的分布密切匹配。但是,在现实世界中,此类系统的关键要求是它们推广到看不见的领域的能力。在这里,我们提出了一个域间梯度匹配目标,该目标通过最大化不同域的梯度之间的内部产物来靶向域的概括 ...
为了加速学习过程,几乎没有样本,元学习求助于以前的任务的先验知识。但是,很难通过全球共享模型初始化来处理任务分布和异质性不一致的。在本文中,基于基于梯度的元学习,我们提出了一种合奏嵌入式的元学习算法(EEML),该算法(EEML)明确利用多模型融合来将先验知识组织成各种特定的专家 ...
利用特定环境的渠道状态信息(CSI)在特定环境下进行的现有本地化方法,但努力跨越各种环境。当面对有限的培训数据时,这一挑战变得更加明显。为了解决这些问题,我们提出了受PAC-Optimal Hyper-Posterior(PACOH)算法的启发的贝叶斯最佳元学习(BOML-LOC)框架 ...
在本文中,我们提供了一种基于神经网络的多任务学习(MTL)和多领域学习(MDL)的新观点。通过引入语义描述符的概念,该框架统一了 MDL 和 MTL,并通过将各种经典和最新的 MTL/MDL 算法解释为构建语义描述符的不同方式来涵盖它们。我们的解释为零样本学习(ZSL)提供了另一种管道,其中可以在没有训练数据的情况下构建新类别的模型 ...