声学场景分类使用频谱信息将输入片段识别为预定义类别之一。由于不同类别的共同声学特性(例如机场和购物中心中包含的胡言乱语),声学场景的频谱信息可能不会相互排斥。然而,基于one-hot标签的传统训练过程没有考虑不同声学场景之间的相似性 ...
声学场景分类任务中的一个普遍问题是训练数据和测试数据之间的不匹配条件,这显着降低了所开发方法的分类精度性能。作为对策,我们提出了第一种用于声学场景分类的无监督对抗域适应方法。我们采用对来自一组条件的数据进行预训练的模型,并通过使用来自其他条件集的数据来调整模型,以便其输出不能用于对输入数据所属的条件集进行分类 ...
提出了一种基于卷积神经网络(CNN)的宽带 DOA 估计分类方法,其中接收麦克风信号的短时傅立叶变换系数的相位分量直接输入 CNN,并在训练过程中学习 DOA 估计所需的特征。训练。由于仅使用输入的相位分量,因此可以使用合成噪声信号来训练 CNN,从而与使用语音信号相比,使得训练数据集的准备更加容易。通过实验评估,证明了所提出的噪声训练 CNN 框架泛化到语音源的能力 ...
近年来,神经网络方法在许多应用领域表现出了优于传统手工制作特征的性能。特别是,卷积神经网络 (ConvNet) 利用输入数据之间的空间局部相关性来提高音频处理任务的性能,例如语音识别、和弦识别和起始检测。在这里,我们将 ConvNet 应用于声学场景分类,并表明通过使用频域中的 delta 特征可以进一步降低错误率 ...
在这份技术报告中,我们介绍了 GT、USTC、腾讯和 UKE 四个小组在 DCASE 2020 挑战赛中解决任务 1 - 声学场景分类 (ASC) 的共同努力。任务 1 包含两个不同的子任务:(i) 任务 1a 侧重于将多个(真实和模拟)设备记录的音频信号的 ASC 分为十个不同的细粒度类别,(ii) 任务 1b 涉及将数据分类为三个使用低复杂度解决方案的更高级别的类。对于任务 1a,我们提出了一种新颖的两阶段 ASC 系统,利用两个卷积神经网络 (CNN) 的临时评分组合,分别根据三个类别和十个类别对声学输入进行分类 ...