近年来,随着大型语言模型(LLM)的快速发展,离散语音标记化在将语音注入 LLM 方面发挥了重要作用。然而,这种离散化会导致信息丢失,从而损害整体性能。为了提高这些离散语音标记的性能,我们提出了 RepCodec,一种用于语义语音标记化的新型语音表示编解码器 ...

0 0 0 0 2024/08/15 arXiv:2309.00169v3 gubaobao

在大规模数据集上训练的文本转语音模型表现出了令人印象深刻的上下文学习能力和自然性。然而,这些模型中说话者身份和风格的控制通常需要对参考语音录音进行调节,从而限制了创造性应用。另外,说话者身份和风格的自然语言提示已显示出有希望的结果,并提供了直观的控制方法 ...

0 0 0 0 2024/08/14 arXiv:2402.01912v1 gubaobao

我们提出了 MELLE,一种新颖的基于连续值标记的语言建模方法,用于文本到语音合成 (TTS)。 MELLE 直接从文本条件自回归生成连续的梅尔频谱图帧,绕过了矢量量化的需要,矢量量化最初是为音频压缩而设计的,与梅尔频谱图相比,牺牲了保真度。具体来说,(i)我们不是使用交叉熵损失,而是应用回归损失和所提出的频谱图通量损失函数来对连续值标记的概率分布进行建模 ...

0 1 0 0 2024/08/01 arXiv:2407.08551v1 gubaobao

近来,基于大语言模型(LLM)的文本转语音(TTS)遗传高自然度和零样本能力而成为主流。在此范例中,语音信号被离散化为Token序列,这些序列由LLM以文本文本表示作为提示进行建模,并由基于Token的声码器重建为波形。显然,语音标记在基于LLM的TTS模型中发挥着至关重要的作用... ...

0 2 0 0 2024/11/11 arXiv:2407.05407v2 gubaobao

本报告介绍了 FunAudioLLM,这是一个旨在增强人类与大型语言模型 (LLM) 之间的自然语音交互的模型系列。其核心是两个创新模型:SenseVoice,处理多语言语音识别、情感识别和音频事件检测; CosyVoice,它通过控制多种语言、音色、说话风格和说话者身份来促进自然语音生成。 SenseVoice-Small 为 5 种语言提供极低延迟的 ASR,SenseVoice-Large 支持超过 50 种语言的高精度 ASR,而 CosyVoice 在多语言语音生成、零样本上下文学习、跨语言语音克隆方面表现出色和指令遵循能力 ...

0 0 0 0 2024/12/11 arXiv:2407.04051v3 gubaobao

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)