本文提出了一种无监督的域适应性(UDA)方法,用于预测未标记的目标域数据,该数据特定于域间隙显着的复杂UDA任务。主流UDA模型旨在通过使用标记的源域数据来从两个领域学习并改善目标歧视。但是,当源和目标域之间的差异较大或目标域包含异常值时,性能提升可能会受到限制 ...
域适应性(DA)旨在将知识从富含标签但异质域的知识转移到标签 - 标准域,从而减轻了标签工作并引起了相当大的关注。与以前关注学习域不变特征表示的方法不同,一些最新方法呈现通用的半监督学习(SSL)技术,并将其直接应用于DA任务,甚至可以实现竞争性能。最受欢迎的SSL技术之一是伪标记,该标签通过通过标记数据训练的分类器为每个未标记的数据分配伪标签 ...
多源本地化是多对话对话分析的重要且具有挑战性的技术。本文提出了一种使用深神网络的新型监督学习方法,以同时从音频混合物中同时估算所有说话者的到达方向(DOA)。该提案的核心是一种来源分裂机制,该机制在网络内部创建特定于源的中间表示 ...
对于相控麦克风阵列声源定位来说,兼具高计算效率和高精度的算法是人们不懈的追求。本文初步应用深度学习的一种新算法——卷积神经网络(CNN)。在高频下,CNN 可以在与传统波束形成一样短的时间内以与 DAMAS 一样出色的空间分辨率重建声音定位 ...
无监督域适应(UDA)是在给定源域上的标记数据(其分布与目标域不同)的情况下,对目标域上的未标记数据进行预测。主流 UDA 方法学习两个域之间的对齐特征,以便在源特征上训练的分类器可以轻松应用于目标特征。然而,这种转移策略存在破坏目标数据的内在辨别力的潜在风险 ...
基于深度学习的机器听力领域的一个具有挑战性的问题是使用来自未见条件的数据时性能下降。在本文中,我们专注于声学场景分类(ASC)任务,并提出了一种对抗性深度学习方法,以允许调整声学场景分类系统来处理由不同记录设备捕获的数据产生的新声学通道。我们建立在 H{\Delta}H 距离的理论模型和先前用于 ASC 无监督域适应的对抗性判别深度学习方法的基础上,并提出了一种使用 Wasserstein 距离的基于对抗性训练的方法 ...
声音事件定位和检测 (SELD) 将声音事件的识别与相应的到达方向 (DOA) 结合起来。最近,采用了面向事件的轨道输出格式来解决这个问题;然而,它们对于未知复调环境中的现实问题的泛化能力仍然有限。为了解决这个问题,我们提出了一种基于角度距离的多重 SELD (AD-YOLO),它是 SELD 的“You Only Look Once”算法的改编 ...
机器学习算法在使用有限设备组的音频记录进行训练时,可能无法很好地推广到使用具有不同频率响应的其他设备记录的样本。在这项工作中,引入了一种相对简单的方法来解决这个问题。提出了该方法的两种变体 ...
声学场景分类是识别记录音频信号的场景的任务。卷积神经网络(CNN)模型被广泛采用,并在声学场景分类方面取得了成功。然而,正如图像识别研究中所证明的那样,人们对 CNN 中如何感知音频场景知之甚少 ...
众所周知,训练(源)和测试(目标)数据分布之间的不匹配将显着降低声学场景分类(ASC)系统的性能。为了解决这个问题,域适应(DA)是一种解决方案,并且已经提出了许多无监督的 DA 方法。这些方法侧重于单个源域到单个目标域的场景 ...