/documents/69700/
基本信息
文件基本信息
名称
UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice
描述
表达性语音到语音翻译 (S2ST) 的最终目标是准确翻译口语内容,同时保留说话者的身份和情感风格。然而,该领域的进展在很大程度上受到三个关键挑战的阻碍:保留表达风格的配对语音数据的稀缺、多阶段处理管道的复杂性以及大型语言模型(LLM)翻译能力的转移有限。在这项工作中,我们通过引入 UniSS 来应对这些挑战,UniSS 是一种用于表达 S2ST 的新型单阶段框架。我们的方法采用精心设计的语音语义和风格建模,能够与现有的基于文本的 LLM 框架无缝集成,以开发统一的文本语音语言模型。为了将翻译能力从文本转移到语音,我们提出了一种跨模式的思想链提示过程,逐步将音频语义与文本对齐,并确保解码结果中的风格保留。此外,我们构建并发布了一个大规模、高质量的表达性 S2ST 数据集 UniST,包含 44.8k 小时的数据。实验结果表明,UniSS 在翻译保真度和语音质量方面显着优于以前的方法,同时保持语音、情感和持续时间的一致性。我们的工作为构建下一代富有表现力的 S2ST 系统建立了一个更简单、更有效的范例。音频样本可在此 https URL 获取 ...