混响环境中的准确声音定位对于人类听觉感知至关重要。最近,卷积神经网络(CNN)已用于对双耳人类听觉途径进行建模。但是,CNN显示出捕获全球声学特征的障碍 ...
声音事件检测和本地化(SELD)是识别声音事件及其相应到达方向(DOA)的一项组合任务。尽管该任务具有许多应用程序,并且近年来已经对其进行了广泛的研究,但它未能提供有关声源位置的完整信息。在本文中,我们通过将任务扩展到声音事件检测,距离估计(3D SELD)来克服此问题 ...
无监督的域适应性解决了在未标记的目标域中分类数据的问题,鉴于标记为共享共同标签空间但遵循不同分布的标记的源域数据。最近的大多数方法采用了两个域之间明确对齐特征分布的方法。不同的是,以域适应性的基本假设为动机,我们将域的适应性问题重新列为目标数据的歧视性聚类,鉴于由密切相关,标记的源数据提供的强大特权信息 ...
深度卷积神经网络(CNN)学习判别性光谱式模式的能力使它们非常适合环境声音分类。但是,标记数据的相对稀缺阻碍了这种高容量模型家族的开发。这项研究有两个主要的贡献:首先,我们提出了一个深层卷积神经网络架构,用于环境声音分类 ...
本文提出了一种无监督的域适应性(UDA)方法,用于预测未标记的目标域数据,该数据特定于域间隙显着的复杂UDA任务。主流UDA模型旨在通过使用标记的源域数据来从两个领域学习并改善目标歧视。但是,当源和目标域之间的差异较大或目标域包含异常值时,性能提升可能会受到限制 ...
域适应性(DA)旨在将知识从富含标签但异质域的知识转移到标签 - 标准域,从而减轻了标签工作并引起了相当大的关注。与以前关注学习域不变特征表示的方法不同,一些最新方法呈现通用的半监督学习(SSL)技术,并将其直接应用于DA任务,甚至可以实现竞争性能。最受欢迎的SSL技术之一是伪标记,该标签通过通过标记数据训练的分类器为每个未标记的数据分配伪标签 ...
多源本地化是多对话对话分析的重要且具有挑战性的技术。本文提出了一种使用深神网络的新型监督学习方法,以同时从音频混合物中同时估算所有说话者的到达方向(DOA)。该提案的核心是一种来源分裂机制,该机制在网络内部创建特定于源的中间表示 ...
对于相控麦克风阵列声源定位来说,兼具高计算效率和高精度的算法是人们不懈的追求。本文初步应用深度学习的一种新算法——卷积神经网络(CNN)。在高频下,CNN 可以在与传统波束形成一样短的时间内以与 DAMAS 一样出色的空间分辨率重建声音定位 ...
无监督域适应(UDA)是在给定源域上的标记数据(其分布与目标域不同)的情况下,对目标域上的未标记数据进行预测。主流 UDA 方法学习两个域之间的对齐特征,以便在源特征上训练的分类器可以轻松应用于目标特征。然而,这种转移策略存在破坏目标数据的内在辨别力的潜在风险 ...
基于深度学习的机器听力领域的一个具有挑战性的问题是使用来自未见条件的数据时性能下降。在本文中,我们专注于声学场景分类(ASC)任务,并提出了一种对抗性深度学习方法,以允许调整声学场景分类系统来处理由不同记录设备捕获的数据产生的新声学通道。我们建立在 H{\Delta}H 距离的理论模型和先前用于 ASC 无监督域适应的对抗性判别深度学习方法的基础上,并提出了一种使用 Wasserstein 距离的基于对抗性训练的方法 ...