luffy的文档

luffy

个性签名 ...

OWLS: Scaling Laws for Multilingual Speech Recognition and Translation Models

神经缩放法律为设计强大的序列处理体系结构提供了宝贵的见解。尽管这些定律在其他方式中得到了广泛的特征，但它们在语音中的行为仍然相对不受影响。在这项工作中，我们介绍了Owls，这是一套开放式，可再现的多语言语音识别和跨越0的翻译模型的套件 ...

0 0 0 0 2025/07/08 arXiv:2502.10373v1 luffy

OWSM v4: Improving Open Whisper-Style Speech Models via Data Scaling and Cleaning

开放式耳语风格的语音模型（OWSM）项目已经使用学术规模的资源开发了一系列完全开放的语音基础模型，但他们的培训数据仍然不足。这项工作通过集成Yodas，Yodas是一个大规模的网络爬行数据集和创意共享许可证。但是，由于其野生性质，尤达斯的融合是非凡的，这引入了诸如不正确的语言标签和音频文本未对准之类的挑战 ...

0 0 0 0 2025/07/05 arXiv:2506.00338v1 luffy

Efficient Speech Enhancement via Embeddings from Pre-trained Generative Audioencoders

最近的研究已研究到语音增强（SE）方法，这些方法利用了预训练模型的音频嵌入，与时间频率掩盖或信号预测技术有所不同。本文介绍了一种有效且可扩展的SE方法。我们的方法涉及最初使用预训练的AudioEncoder从嘈杂的语音中提取音频嵌入，然后通过紧凑的编码网络将其分解 ...

0 0 0 0 2025/06/19 arXiv:2506.11514v1 luffy

GLAP: General contrastive audio-text pretraining across domains and languages

对比语言音频预处理（拍手）是一种弥合音频和文本域之间差距的广泛使用方法。当前的拍手方法可以用英语进行声音和音乐检索，而忽略了多语言口语内容。为了解决这个问题，我们介绍了通用语言音频预处理（GLAP），该音频预处理（GLAP）通过多语言和多域功能扩展拍手 ...

0 0 0 0 2025/06/19 arXiv:2506.11350v1 luffy

ZipVoice: Fast and High-Quality Zero-Shot Text-to-Speech with Flow Matching

现有的大规模零射击文本到语音（TTS）模型具有较高的语音质量，但由于大量参数而导致推理速度缓慢。为了解决此问题，本文介绍了Zipvoice，这是一种基于紧凑的模型大小和快速推理速度的高质量流量匹配零击TTS模型。关键设计包括：1）基于Zipformer的流量匹配解码器，以在约束尺寸下保持足够的建模功能； 2）基于平均基于UPSPRING的初始语音文本对齐和基于Zipformer的文本编码器，以提高语音清晰度； 3）一种减少采样步骤并消除与无分类器指导相关的推理开销的流动蒸馏方法 ...

0 0 0 0 2025/06/19 arXiv:2506.13053v1 luffy

TTSOps: A Closed-Loop Corpus Optimization Framework for Training Multi-Speaker TTS Models from Dark Data

本文介绍了TTSOPS，这是一个完全自动化的闭环框架，用于从嘈杂的，未切割的网络尺度语音数据中构建多演讲者文本到语音（TTS）系统，通常称为“ Dark Data”，例如在线视频。传统的TTS培训管道需要具有高声学质量和准确的文本语音对齐方式进行精心策划的语料库，这严重限制了可扩展性，扬声器多样性和现实世界中的适用性。尽管最近的研究提出了基于声学质量的数据选择技术，但它们经常忽略两个关键方面：（1）现代TTS模型对噪声的固有性固有性，以及（2）感知低质量却有益的样本的潜在贡献 ...

0 0 0 0 2025/06/19 arXiv:2506.15614v1 luffy

CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing

我们介绍了条件感知的自我监督学习表示（CA-SSLR），这是一种通才调节模型，广泛地适用于各种语音处理任务。与为下游模型优化的标准微调方法相比，CA-SSLR集成了早期层中的语言和说话者嵌入，使SSL模型了解当前的语言和说话者的环境。这种方法在保留基本SSLR的完整性的同时降低了对输入音频功能的依赖 ...

0 0 0 0 2025/05/14 arXiv:2412.04425v1 luffy

Towards Flow-Matching-based TTS without Classifier-Free Guidance

流匹配表现出强大的生成能力，并已成为现代文本到语音（TTS）系统的核心组成部分。为了确保高质量的语音综合，在基于流量匹配的TTS模型的推断期间，无分类器指导（CFG）被广泛使用。但是，CFG会产生大量的计算成本，因为它需要两个正向通行证，这阻碍了其在实时场景中的适用性 ...

0 0 0 0 2025/04/30 arXiv:2504.20334v1 luffy

Muyan-TTS: A Trainable Text-to-Speech Model Optimized for Podcast Scenarios with a $50K Budget

文本到语音（TTS）模型的最新进展是由大语言模型（LLM）的整合，增强语义理解和改善语音自然性的驱动的。但是，现有的基于LLM的TTS模型通常缺乏开源培训代码和有效的推理加速框架，从而限制了它们的可访问性和适应性。此外，没有针对播客方案专门优化公开可用的TTS模型，这些模型对语音交互应用的需求很高 ...

0 0 0 0 2025/04/29 arXiv:2504.19146v1 luffy

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

大型语言模型 (LLM) 彻底改变了自然语言处理，但由于集成音频和文本模式的复杂性，它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo，这是一种混合模态模型，可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法，Ichigo 将语音量化为离散标记，并针对语音和文本模式采用基于 Transformer 的统一架构 ...

0 0 0 0 2025/04/09 arXiv:2410.15316v3 luffy