零样本语音转换(VC)旨在将音色从源说话者转移到任意未见过的说话者,同时保留原始语言内容。尽管最近使用基于语言模型或基于扩散的方法在零样本 VC 方面取得了进展,但仍然存在一些挑战:1)当前的方法主要集中于适应来自看不见的说话者的音色,无法将风格和音色独立地传递给不同的看不见的说话者; 2)由于自回归建模方法或需要大量采样步骤,这些方法通常推理速度较慢; 3)转换后的样本质量和相似度仍不完全令人满意。为了应对这些挑战,我们提出了一种风格可控的零样本 VC 方法,名为 StableVC,其目的是将源语音的音色和风格转移到不同的看不见的目标说话者 ...
这份技术报告介绍了我们为台湾普通话构建口语大语言模型 (LLM) 的初步尝试,该模型专门用于在多轮对话中实现实时语音到语音交互。我们的端到端模型采用了仅解码器的 Transformer 架构,旨在实现无缝交互,同时保留对话流,包括允许同时讲话和收听的全双工功能。该论文还详细介绍了训练过程,包括合成对话的数据准备和实时交互的调整 ...
大型语言模型 (LLM) 彻底改变了自然语言处理,但由于集成音频和文本模式的复杂性,它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo,这是一种混合模态模型,可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法,Ichigo 将语音量化为离散标记,并针对语音和文本模式采用基于 Transformer 的统一架构 ...
大语言模型的快速发展带来了许多新的智能应用,尤其是GPT-4o中出色的多模态人机交互给用户带来了令人印象深刻的体验。在此背景下,研究人员最近提出了许多可以实现语音对语音对话的多模态 LLM 。在本文中,我们提出了一种称为 Freeze-Omni 的语音文本多模式 LLM 架构 ...
在本文中,我们提出了重塑维度网络(ReDimNet),这是一种用于提取话语级说话人表示的新颖神经网络架构。我们的方法利用 2D 特征映射到 1D 信号表示的维度重塑,反之亦然,从而实现 1D 和 2D 块的联合使用。我们提出了一种原始的网络拓扑,它保留一维和二维块的通道时间步长频率输出的体积,促进有效的残差特征图聚合 ...
本文介绍了 ESPnet-SPK,这是一个旨在训练说话人嵌入提取器的多个目标的工具包。首先,我们为说话人识别社区的研究人员提供一个开源平台,帮助他们轻松构建模型。我们提供多种模型,从 x-向量到最近的 SKA-TDNN ...
深度学习模型在机器学习的许多领域中日益占据主导地位。文本转语音 (TTS) 是从文本合成人工语音的过程,也不例外。为此,通常使用单个说话者几个小时录制的语音的语料库来训练深度神经网络 ...
尽管最近的大规模文本转语音(TTS)模型取得了显着进展,但它们在语音质量、相似性和韵律方面仍然存在不足。考虑到语音错综复杂地包含各种属性(例如, ...
本文介绍了 FunCodec,一个基本的神经语音编解码器工具包,它是开源语音处理工具包 FunASR 的扩展。 FunCodec 为最新的神经语音编解码器模型(例如 SoundStream 和 Encodec)提供可重复的训练方法和推理脚本。由于与FunASR的统一设计,FunCodec可以轻松集成到下游任务中,例如语音识别 ...
最近有关语音合成的几项工作采用了生成对抗网络(GAN)来生成原始波形。虽然此类方法提高了采集效率和内存利用率,但其样本质量尚未达到并基于流的生成模型。最近的工作中,我们提出了 HiFi-GAN,它实现了高效和高保真的语音合成... ...