神经编解码器对于最近的语音和音频生成研究至关重要。除了信号压缩功能之外,离散编解码器还被发现可以提高下游训练效率以及与自回归语言模型的兼容性。然而,随着广泛的下游应用程序的调查,在确保不同应用程序之间的公平比较方面出现了挑战。为了解决这些问题,我们提出了一个新的开源平台 ESPnet-Codec,它基于 ESPnet 构建,专注于神经编解码器的训练和评估。 ESPnet-Codec 提供了各种音频、音乐和语音配方,使用多种广泛采用的编解码器模型进行训练和评估。我们与 ESPnet-Codec 一起推出了 VERSA,这是一个独立的评估工具包,它可以对 20 多个音频评估指标的编解码器性能进行全面评估。值得注意的是,我们证明了 ESPnet-Codec 可以集成到六个 ESPnet 任务中,支持不同的应用程序 ...

0 0 0 0 2026/02/04 arXiv:2409.15897v2 ShellWe

首先描述了 Transformer 每个部分的矩阵表达式。基于矩阵的半张量产物(STP),重新考虑了高量向量,并通过使用投影构建对向量上的线性转换。获得其特性和计算公式 ...

0 0 0 0 2025/10/07 arXiv:2504.14514v1 ShellWe

现在,神经声码编码器正在广泛的语音处理应用中使用。在许多应用程序中,Vocoder可以是最复杂的组件,因此找到较低的复杂性算法可以带来重大的实际收益。在这项工作中,我们提出了一种自回归的声音码器Fargan,它利用长期的音调预测来综合小副群中的高质量演讲,而无需教师 ...

0 0 0 0 2025/07/09 arXiv:2405.21069v2 ShellWe