本文介绍了 DashengTokenizer,这是一种连续音频分词器,专为在理解和生成任务中联合使用而设计。与训练声学分词器并随后集成冻结语义知识的传统方法不同,我们的方法颠倒了这种范式:我们利用冻结语义特征并注入声学信息。在 22 个不同任务的线性评估中,我们的方法显着优于以前的音频编解码器和音频编码器基线,同时保持有竞争力的音频重建质量。值得注意的是,我们证明这种声学注入可以提高语音情感识别、音乐理解和声学场景分类等任务的性能。我们进一步评估分词器在文本到音频(TTA)、文本到音乐(TTM)和语音增强(SE)方面的生成性能。我们的方法在 TTA 和 TTM 任务上超越了基于标准变分自动编码器 (VAE) 的方法,而其在 SE 上的有效性强调了其作为通用音频编码器的能力。最后,我们的结果挑战了基于 VAE 的架构是音频合成的先决条件的普遍假设。检查点可通过此 https URL 获取 ...
自监督学习 (SSL) 显着改进了声学表征学习。然而,大多数现有模型都针对语音或音频事件理解进行了优化,导致这两个领域之间存在持续的差距。我们通过 SPEAR(SPEech 和音频表示)解决了这一差距,这是一个自我监督框架,可将来自以语音为中心的 SSL 教师和通用音频 SSL 教师的互补知识提炼成一个统一的模型。 SPEAR 将多码本矢量量化应用于连续的教师表示,以生成捕获语义和声学信息的细粒度离散标记。为了有效地整合这些异构表示,SPEAR 在给定具有不对称预训练损失的屏蔽输入的情况下联合预测它们。我们通过新颖的 Token 混合机制进一步提高了复杂声音场景的鲁棒性。大量实验表明 SPEAR 始终优于现有的统一语音和音频模型。 SPEAR 在 SUPERB 基准上建立了新的最先进水平,在 15 项任务中的 12 项上超越了 WavLM Large,同时在 HEAR 基准上实现了具有竞争力的性能。这些结果使 SPEAR 成为通用语音和音频表示学习的多功能基础。代码和预训练模型将被发布 ...
Although supervised deep learning has revolutionized speech and audio processing, it has necessitated the building of specialist models for individual tasks and application scenarios. It is likewise difficult to apply this to dialects and languages for which only limited labeled data is available. Self-supervised representation learning methods promise a single universal model that would benefit a wide variety of tasks and domains. Such methods have shown success in natural language processing and computer vision domains, achieving new levels of performance while reducing the number of labels required for many downstream scenarios. Speech representation learning is experiencing similar progress in three main categories: generative, contrastive, and predictive methods. Other approaches rely on multi-modal data for pre-training, mixing text or visual data streams with speech. Although self-supervised speech representation is still a nascent research area, it is closely related to acoustic word embedding and learning with zero lexical resources, both of which have seen active research for many years. This review presents approaches for self-supervised speech representation learning and their connection to other research areas. Since many current methods focus solely on automatic speech recognition as a downstream task, we review recent efforts on benchmarking learned representations to extend the application beyond speech recognition.
尽管音频分类取得了进展,但语音和其他声音领域(例如环境声音和音乐)之间仍然存在泛化差距。针对语音任务训练的模型通常无法在环境或音乐音频任务上表现良好,反之亦然。虽然自监督 (SSL) 音频表示提供了一种替代方案,但对于缩放基于 SSL 的通用音频分类的模型和数据集大小的探索有限。我们介绍 Dasheng,一个简单的 SSL 音频编码器,基于高效的屏蔽自动编码器框架。经过 12 亿个参数、272,356 小时的不同音频的训练,大声在 HEAR 基准测试中获得了显着的性能提升。它超越了之前在 CREMA-D、LibriCount、Speech Commands、VoxLingua 上的作品,并且在音乐和环境分类方面表现出色。正如最近邻分类实验所示,打声特征本质上包含丰富的语音、音乐和环境信息。代码可通过 https URL 获取 ...
在本文中,我们提出了 DS-KWS,这是一个用于稳健的用户定义关键字识别的两阶段框架。它将基于 CTC 的方法与流式音素搜索模块相结合来定位候选片段,然后将基于 QbyT 的方法与音素匹配器模块相结合,以在音素和话语级别进行验证。为了进一步提高性能,我们引入了双数据扩展策略:(1)将 ASR 语料库从 460 小时扩展至 1,460 小时以强化声学模型; (2) 利用超过 155k 个锚定类来训练音素匹配器,显着增强易混淆单词的区分度 ...
自我监督的学习(SSL)彻底改变了音频表示,但模型通常仍然是特定于领域的,重点是语音或非语音任务。在这项工作中,我们提出了通用的语音和音频蒸馏(USAD),这是一种统一的音频表示方法,将各种音频类型(语音,声音和音乐)整合到单个模型中。 USAD使用特定于域的SSL模型采用有效的层到层蒸馏,以在全面的音频数据集上培训学生 ...
基于 Transformer 的语音自我监督学习(SSL)模型,例如休伯特,在各种语音处理任务中表现出令人惊讶的表现。但是,语音SSL模型中的大量参数需要压缩到更紧凑的模型,以便在学术界或小型公司中使用更广泛的用法。在这项研究中,我们建议在 Transformer 层上重用注意图,以在保留层数的同时删除键和查询参数 ...
尽管基于 Transformer 的语音自学学习(SSL)模型的表现出色,但它们的较大参数大小和计算成本使它们不太利用。在这项研究中,我们建议通过提炼语音时间关系(Star)来压缩语音SSL模型。与以前的作品直接匹配每个语音框架的表示形式不同,星星蒸馏传递了语音框架之间的时间关系,这更适合容量有限的轻量级学生 ...
对于大多数现代智能助手而言,关键字斑点(KWS)是人机交流的核心前端任务。最近,已经提出了一个统一的(UNIKW-AT)框架,该框架以音频标记(AT)形式增加了KWS模型的形式。但是,以前的工作并未考虑Unikw-at模型的现实部署,其中诸如模型大小和推理速度之类的因素比单独的性能更重要 ...
大型语言模型(LLMS)最近被利用用于资产定价任务和股票交易应用程序,使AI代理商能够从非结构化的财务数据中产生投资决策。但是,大多数基于LLM的基于LLM的投资策略的评估都是在狭窄的时间表和有限的库存宇宙上进行的,由于生存和数据努力偏见而导致的有效性夸大了。我们通过提出Finsaber来评估它们的普遍性和鲁棒性,Finsaber是一个回测框架,该框架评估了较长时期和更大的符号宇宙的基于时机的策略 ...