wenwen的文档

wenwen

个性签名 ...

Speech Enhancement and Dereverberation with Diffusion-based Generative Models

在这项工作中，我们以之前的出版物为基础，并使用基于扩散的生成模型进行语音增强。我们详细概述了基于随机微分方程的扩散过程，并深入研究了其含义的广泛理论检验。与通常的条件生成任务相反，我们不是从纯高斯噪声开始相反的过程，而是从噪声语音和高斯噪声的混合开始 ...

1 1 0 0 2024/11/10 arXiv:2208.05830v2 wenwen

End-to-End Speech Recognition: A Survey

在自动语音识别 (ASR) 研究的过去十年中，与不使用深度学习的建模相比，深度学习的引入带来了相对 50% 以上的单词错误率的大幅降低。在这一转变之后，引入了许多全神经 ASR 架构。这些所谓的端到端（E2E）模型提供了高度集成的完全神经ASR模型，该模型强烈依赖于一般机器学习知识，从数据中学习更加一致，同时较少依赖于ASR特定领域的经验 ...

0 0 0 0 2024/11/05 arXiv:2303.03329v1 wenwen

Multi-CMGAN+/+: Leveraging Multi-Objective Speech Quality Metric Prediction for Speech Enhancement

基于神经网络的语音增强方法已被证明特别强大，能够利用数据驱动的方法来实现与其他方法相比显着的性能增益。此类方法依赖于人工创建的标记训练数据，以便可以使用侵入式损失函数来训练神经模型，该函数将模型的输出与干净的参考语音进行比较。此类系统在增强现实世界音频时的性能通常会因其在模拟测试数据上的性能而受到影响 ...

0 0 0 0 2024/11/05 arXiv:2312.08979v1 wenwen

AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised Features for Audio-Visual Speech Enhancement

语音增强系统通常使用干净语音和噪声语音对进行训练。在视听语音增强（AVSE）中，没有那么多可用的真实干净数据；大多数视听数据集都是在具有背景噪声和混响的现实环境中收集的，这阻碍了 AVSE 的发展。在这项工作中，我们介绍了 AV2Wav，一种基于再合成的视听语音增强方法，尽管面临现实世界训练数据的挑战，它仍然可以生成清晰的语音 ...

0 0 0 0 2024/11/05 arXiv:2309.08030v5 wenwen

NoLACE: Improving Low-Complexity Speech Codec Enhancement Through Adaptive Temporal Shaping

语音编解码器增强方法旨在消除语音编解码器添加的失真。虽然经典方法的复杂度非常低并且零延迟，但其有效性相当有限。相比之下，基于 DNN 的方法可提供更高的质量，但它们通常复杂度较高和/或需要延迟 ...

0 0 0 0 2024/11/05 arXiv:2309.14521v2 wenwen

Diffusion-based speech enhancement with a weighted generative-supervised learning loss

基于扩散的生成模型最近在语音增强（SE）领域受到关注，为传统的监督方法提供了替代方案。这些模型将干净的语音训练样本转换为以噪声语音为中心的高斯噪声，并随后学习参数化模型以在噪声语音的条件下反转此过程。与监督方法不同，基于生成的 SE 方法通常仅依赖于无监督损失，这可能会导致条件噪声语音的合并效率较低 ...

0 0 0 0 2024/11/05 arXiv:2309.10457v1 wenwen

An Acoustic Simulation Framework to Support Indoor Positioning and Data Driven Signal Processing Assessments

我们提出了一个支持超声波和声音信号的室内声学模拟框架。该框架为快速室内声学数据生成和定位开发提供了机会。改进的基于热声学的物理模型包括图像源模型（ISM）和光线追踪方法，以模拟扩展典型鞋盒房间的几何空间中的声学信号 ...

0 0 0 0 2024/11/02 arXiv:2305.02715v2 wenwen

RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification

本文重点关注房间指纹识别，这项任务涉及分析音频记录以确定捕获该音频的房间的具体体积和形状。虽然从房间脉冲响应 (RIR) 确定基本房间参数相对简单，但从语音信号确定基本房间参数却是一项繁琐的任务。为了应对这一挑战，我们引入了双编码器架构，可以直接从语音中估计房间参数 ...

0 0 0 0 2024/11/02 arXiv:2406.03120v1 wenwen

Improving Reverberant Speech Training Using Diffuse Acoustic Simulation

我们提出了一种高效且真实的几何声学模拟方法，用于在语音相关的机器学习任务中生成和增强训练数据。我们基于物理的声学模拟方法能够对复杂声学环境中声音的遮挡、镜面反射和漫反射进行建模，而经典图像方法只能对简单房间设置中的镜面反射进行建模。我们表明，通过使用我们的合成训练数据，相同的神经网络在远场语音识别的真实测试集上获得了 1 倍的显着性能提升 ...

0 0 0 0 2024/11/02 arXiv:1907.03988v5 wenwen

FAST-RIR: Fast neural diffuse room impulse response generator

我们提出了一种基于神经网络的快速扩散房间脉冲响应发生器（FAST-RIR），用于为给定的声学环境生成房间脉冲响应（RIR）。我们的 FAST-RIR 将矩形房间尺寸、听者和扬声器位置以及混响时间作为输入，并针对给定的声学环境生成镜面反射和漫反射。我们的 FAST-RIR 能够生成给定输入混响时间的 RIR，平均误差为 0 ...

0 0 0 0 2024/11/02 arXiv:2110.04057v2 wenwen