luffy的文档

luffy

个性签名 ...

Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

我们提出了 Samba ASR，这是第一个最先进的自动语音识别 (ASR) 模型，利用新颖的 Mamba 架构作为编码器和解码器，建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同，它依赖于自我- 捕获依赖关系的注意力机制，Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系，实现了卓越的性能，此 http URL 解决了转换器的局限性，例如输入长度的二次缩放和处理难度远程依赖性，Samba ASR 实现了卓越的准确性，并且此 http URL 结果表明，Samba ASR 在各种标准基准测试中超越了现有的基于开源 Transformer 的 ASR 模型，将其确立为此 HTTP URL 基准数据集上的最新技术水平，在基准数据集上进行的评估显示了 Word 中的显着改进错误率 (WER)，即使在资源匮乏的情况下也具有竞争力的性能此 http URL，Mamba 架构固有的计算效率和参数优化使 Samba ASR 成为各种 ASR 的可扩展且强大的解决方案此 http URL 的贡献包括开发用于自动语音识别 (ASR) 的新 Samba ASR 架构，展示了结构化状态空间模型 (SSM) 相对于基于 Transformer 的语音序列模型的优越性。此 http URL 提供了对公共基准的综合评估，展示了最先进的 (SOTA) 性能，并提出了对计算效率、噪声鲁棒性和序列的深入分析此 http URL 工作凸显了 Mamba SSM 作为无 Transformer 替代方案的可行性，可利用状态空间的进步实现高效、准确的此 http URL Samba ASR 重新定义了 ASR 性能标准，并为该领域的未来研究树立了新的基准 ...

0 0 0 0 2025/01/09 arXiv:2501.02832v3 luffy

Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

Whisper-GPT: A Hybrid Representation Audio Large Language Model

A Comparative Study of LLM-based ASR and Whisper in Low Resource and Code Switching Scenario

Paraformer-v2: An improved non-autoregressive transformer for noise-robust speech recognition

CR-CTC: Consistency regularization on CTC for improved speech recognition

Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation

Investigating Neural Audio Codecs for Speech Language Model-Based Speech Generation

NEST: Self-supervised Fast Conformer as All-purpose Seasoning to Speech Processing Tasks

FireRedTTS: A Foundation Text-To-Speech Framework for Industry-Level Generative Speech Applications

STAB: Speech Tokenizer Assessment Benchmark

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）