luffy的文档

luffy

个性签名 ...

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

大型语言模型 (LLM) 彻底改变了自然语言处理，但由于集成音频和文本模式的复杂性，它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo，这是一种混合模态模型，可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法，Ichigo 将语音量化为离散标记，并针对语音和文本模式采用基于 Transformer 的统一架构 ...

0 0 0 0 2025/04/09 arXiv:2410.15316v3 luffy

Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

多语言和跨语言自动语音识别（MCL-ASR）存在三种方法：语音或字形转录的监督预训练和自监督预训练。我们发现，到目前为止，带有语音监督的预训练对于 MCL-ASR 来说还没有得到充分重视，而从概念上讲，它更有利于不同语言之间的信息共享。本文探索了一种通过弱语音监督进行预训练以实现数据高效的 MCL-ASR 的方法，称为 Whistle ...

0 0 0 0 2025/03/29 arXiv:2406.02166v2 luffy

k2SSL: A Faster and Better Framework for Self-Supervised Speech Representation Learning

自学学习（SSL）在与语音有关的任务中取得了巨大成功。虽然 Transformer 和构象体架构主导了SSL骨架，但在自动语音识别（ASR）中表现出色的Zipformer之类的编码器在SSL中仍未探索。同时，在现有的SSL培训框架内（例如FairSeq）内的数据处理中的效率低下，在管理培训数据的不断增长时构成了挑战 ...

0 0 0 0 2025/03/26 arXiv:2411.17100v2 luffy

Building English ASR model with regional language support

在本文中，我们提出了一种新的方法，用于开发一种可以有效处理印地语查询的英语自动语音识别（ASR）系统，而不会损害其在英语上的性能。我们提出了一种新颖的声学模型（AM），称为“注意”（SHA）模型，具有跨语言共享的隐藏层，而特定于语言的投影层则通过自我发挥作用机制组合。该机制根据输入数据估算每种语言的权重，并相应地称重相应的语言投影层 ...

0 0 0 0 2025/03/12 arXiv:2503.07522v1 luffy

TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

理解特定于域的定理通常不仅需要基于文本的推理。通过结构化的视觉解释有效沟通对于更深入的理解至关重要。尽管大型语言模型（LLMS）在基于文本的定理推理中表现出很强的性能，但它们产生连贯和教学意义的视觉解释的能力仍然是一个开放的挑战。在这项工作中，我们介绍了Theoremememplainagent，这是一种使用Manim Animations生成长格式定理视频（超过5分钟）的代理方法 ...

0 0 0 0 2025/03/05 arXiv:2502.19400v1 luffy

Continuous Autoregressive Modeling with Stochastic Monotonic Alignment for Speech Synthesis

我们提出了一种新型的自动建模方法，用于语音合成，将各种自动编码器（VAE）与多模式潜在空间和使用高斯混合模型（GMM）作为条件概率分布相结合。与以前依赖残留向量量化的方法不同，我们的模型利用了VAE潜在空间的连续语音表示，从而大大简化了训练和推理管道。我们还引入了一种随机的单调对准机制来强制执行严格的单调对准 ...

0 0 0 0 2025/02/05 arXiv:2502.01084v1 luffy

Generative Data Augmentation Challenge: Synthesis of Room Acoustics for Speaker Distance Estimation

本文描述了房间声学挑战的综合，作为 ICASSP 2025 生成数据增强研讨会的一部分。该挑战定义了一个独特的生成任务，旨在提高房间脉冲响应数据集的数量和多样性，以便可以用于空间敏感的下游任务：扬声器距离估计。该挑战指出了精确测量或模拟许多房间的声学特性的技术难度 ...

0 0 0 0 2025/01/24 arXiv:2501.13250v1 luffy

Retrieval Augmented Correction of Named Entity Speech Recognition Errors

近年来，端到端自动语音识别（ASR）系统已证明自己非常准确和高性能，但这些系统对于训练数据中不经常出现的实体名称仍然存在显着的错误率。随着端到端 ASR 系统的兴起，大型语言模型 (LLM) 已被证明是用于各种自然语言处理 (NLP) 任务的多功能工具。在可以使用相关知识数据库的 NLP 任务中，检索增强生成 (RAG) 与 LLM 一起使用时取得了令人印象深刻的结果 ...

0 0 0 0 2025/01/21 arXiv:2409.06062v1 luffy

Scaling Transformers for Low-Bitrate High-Quality Speech Coding

使用神经音频编解码器模型对语音进行标记化是现代人工智能管道的重要组成部分，用于单独或在多模态环境中生成或理解语音。传统上，此类标记化模型集中于仅使用具有强归纳偏差的组件的低参数计数架构。在这项工作中，我们表明，通过扩展具有大量参数的 Transformer 架构来解决这个问题，并应用基于灵活的有限标量量化（FSQ）的瓶颈，可以在极低的比特率下达到最先进的语音质量-每秒 400 美元或 700 美元比特的速率 ...

0 0 0 0 2025/01/11 arXiv:2411.19842v1 luffy

Samba-ASR: State-Of-The-Art Speech Recognition Leveraging Structured State-Space Models

我们提出了 Samba ASR，这是第一个最先进的自动语音识别 (ASR) 模型，利用新颖的 Mamba 架构作为编码器和解码器，建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同，它依赖于自我- 捕获依赖关系的注意力机制，Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系，实现了卓越的性能，此 http URL 解决了转换器的局限性，例如输入长度的二次缩放和处理难度远程依赖性，Samba ASR 实现了卓越的准确性，并且此 http URL 结果表明，Samba ASR 在各种标准基准测试中超越了现有的基于开源 Transformer 的 ASR 模型，将其确立为此 HTTP URL 基准数据集上的最新技术水平，在基准数据集上进行的评估显示了 Word 中的显着改进错误率 (WER)，即使在资源匮乏的情况下也具有竞争力的性能此 http URL，Mamba 架构固有的计算效率和参数优化使 Samba ASR 成为各种 ASR 的可扩展且强大的解决方案此 http URL 的贡献包括开发用于自动语音识别 (ASR) 的新 Samba ASR 架构，展示了结构化状态空间模型 (SSM) 相对于基于 Transformer 的语音序列模型的优越性。此 http URL 提供了对公共基准的综合评估，展示了最先进的 (SOTA) 性能，并提出了对计算效率、噪声鲁棒性和序列的深入分析此 http URL 工作凸显了 Mamba SSM 作为无 Transformer 替代方案的可行性，可利用状态空间的进步实现高效、准确的此 http URL Samba ASR 重新定义了 ASR 性能标准，并为该领域的未来研究树立了新的基准 ...

0 0 0 0 2025/01/09 arXiv:2501.02832v3 luffy