irving的文档

DashengTokenizer: One layer is enough for unified audio understanding and generation

本文介绍了 DashengTokenizer，这是一种连续音频分词器，专为在理解和生成任务中联合使用而设计。与训练声学分词器并随后集成冻结语义知识的传统方法不同，我们的方法颠倒了这种范式：我们利用冻结语义特征并注入声学信息。在 22 个不同任务的线性评估中，我们的方法显着优于以前的音频编解码器和音频编码器基线，同时保持有竞争力的音频重建质量。值得注意的是，我们证明这种声学注入可以提高语音情感识别、音乐理解和声学场景分类等任务的性能。我们进一步评估分词器在文本到音频（TTA）、文本到音乐（TTM）和语音增强（SE）方面的生成性能。我们的方法在 TTA 和 TTM 任务上超越了基于标准变分自动编码器 (VAE) 的方法，而其在 SE 上的有效性强调了其作为通用音频编码器的能力。最后，我们的结果挑战了基于 VAE 的架构是音频合成的先决条件的普遍假设。检查点可通过此 https URL 获取 ...

0 0 0 0 2026/03/07 arXiv:2602.23765v1 irving

SPEAR: A Unified SSL Framework for Learning Speech and Audio Representations

自监督学习 (SSL) 显着改进了声学表征学习。然而，大多数现有模型都针对语音或音频事件理解进行了优化，导致这两个领域之间存在持续的差距。我们通过 SPEAR（SPEech 和音频表示）解决了这一差距，这是一个自我监督框架，可将来自以语音为中心的 SSL 教师和通用音频 SSL 教师的互补知识提炼成一个统一的模型。 SPEAR 将多码本矢量量化应用于连续的教师表示，以生成捕获语义和声学信息的细粒度离散标记。为了有效地整合这些异构表示，SPEAR 在给定具有不对称预训练损失的屏蔽输入的情况下联合预测它们。我们通过新颖的 Token 混合机制进一步提高了复杂声音场景的鲁棒性。大量实验表明 SPEAR 始终优于现有的统一语音和音频模型。 SPEAR 在 SUPERB 基准上建立了新的最先进水平，在 15 项任务中的 12 项上超越了 WavLM Large，同时在 HEAR 基准上实现了具有竞争力的性能。这些结果使 SPEAR 成为通用语音和音频表示学习的多功能基础。代码和预训练模型将被发布 ...

0 0 0 0 2026/02/11 arXiv:2510.25955v2 irving

Self-Supervised Speech Representation Learning: A Review

Although supervised deep learning has revolutionized speech and audio processing, it has necessitated the building of specialist models for individual tasks and application scenarios. It is likewise difficult to apply this to dialects and languages for which only limited labeled data is available. Self-supervised representation learning methods promise a single universal model that would benefit a wide variety of tasks and domains. Such methods have shown success in natural language processing and computer vision domains, achieving new levels of performance while reducing the number of labels required for many downstream scenarios. Speech representation learning is experiencing similar progress in three main categories: generative, contrastive, and predictive methods. Other approaches rely on multi-modal data for pre-training, mixing text or visual data streams with speech. Although self-supervised speech representation is still a nascent research area, it is closely related to acoustic word embedding and learning with zero lexical resources, both of which have seen active research for many years. This review presents approaches for self-supervised speech representation learning and their connection to other research areas. Since many current methods focus solely on automatic speech recognition as a downstream task, we review recent efforts on benchmarking learned representations to extend the application beyond speech recognition.

0 0 0 0 2026/01/12 arXiv:2205.10643v3 irving

Scaling up masked audio encoder learning for general audio classification

尽管音频分类取得了进展，但语音和其他声音领域（例如环境声音和音乐）之间仍然存在泛化差距。针对语音任务训练的模型通常无法在环境或音乐音频任务上表现良好，反之亦然。虽然自监督 (SSL) 音频表示提供了一种替代方案，但对于缩放基于 SSL 的通用音频分类的模型和数据集大小的探索有限。我们介绍 Dasheng，一个简单的 SSL 音频编码器，基于高效的屏蔽自动编码器框架。经过 12 亿个参数、272,356 小时的不同音频的训练，大声在 HEAR 基准测试中获得了显着的性能提升。它超越了之前在 CREMA-D、LibriCount、Speech Commands、VoxLingua 上的作品，并且在音乐和环境分类方面表现出色。正如最近邻分类实验所示，打声特征本质上包含丰富的语音、音乐和环境信息。代码可通过 https URL 获取 ...

0 0 0 0 2026/01/12 arXiv:2406.06992v2 irving

Dual Data Scaling for Robust Two-Stage User-Defined Keyword Spotting

在本文中，我们提出了 DS-KWS，这是一个用于稳健的用户定义关键字识别的两阶段框架。它将基于 CTC 的方法与流式音素搜索模块相结合来定位候选片段，然后将基于 QbyT 的方法与音素匹配器模块相结合，以在音素和话语级别进行验证。为了进一步提高性能，我们引入了双数据扩展策略：（1）将 ASR 语料库从 460 小时扩展至 1,460 小时以强化声学模型； (2) 利用超过 155k 个锚定类来训练音素匹配器，显着增强易混淆单词的区分度 ...

0 0 0 0 2025/10/16 arXiv:2510.10740v1 irving

USAD: Universal Speech and Audio Representation via Distillation

自我监督的学习（SSL）彻底改变了音频表示，但模型通常仍然是特定于领域的，重点是语音或非语音任务。在这项工作中，我们提出了通用的语音和音频蒸馏（USAD），这是一种统一的音频表示方法，将各种音频类型（语音，声音和音乐）整合到单个模型中。 USAD使用特定于域的SSL模型采用有效的层到层蒸馏，以在全面的音频数据集上培训学生 ...

0 0 0 0 2025/06/25 arXiv:2506.18843v1 irving

Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation

基于 Transformer 的语音自我监督学习（SSL）模型，例如休伯特，在各种语音处理任务中表现出令人惊讶的表现。但是，语音SSL模型中的大量参数需要压缩到更紧凑的模型，以便在学术界或小型公司中使用更广泛的用法。在这项研究中，我们建议在 Transformer 层上重用注意图，以在保留层数的同时删除键和查询参数 ...

0 0 0 0 2025/05/21 arXiv:2305.11685v2 irving