基本信息

文件基本信息

名称

UniSS: Unified Expressive Speech-to-Speech Translation with Your Voice

首页

https://yiyibooks.cn/arxiv/2509.21144v1/index.html

原始地址

https://arxiv.org/abs/2509.21144

描述

表达性语音到语音翻译 (S2ST) 的最终目标是准确翻译口语内容，同时保留说话者的身份和情感风格。然而，该领域的进展在很大程度上受到三个关键挑战的阻碍：保留表达风格的配对语音数据的稀缺、多阶段处理管道的复杂性以及大型语言模型（LLM）翻译能力的转移有限。在这项工作中，我们通过引入 UniSS 来应对这些挑战，UniSS 是一种用于表达 S2ST 的新型单阶段框架。我们的方法采用精心设计的语音语义和风格建模，能够与现有的基于文本的 LLM 框架无缝集成，以开发统一的文本语音语言模型。为了将翻译能力从文本转移到语音，我们提出了一种跨模式的思想链提示过程，逐步将音频语义与文本对齐，并确保解码结果中的风格保留。此外，我们构建并发布了一个大规模、高质量的表达性 S2ST 数据集 UniST，包含 44.8k 小时的数据。实验结果表明，UniSS 在翻译保真度和语音质量方面显着优于以前的方法，同时保持语音、情感和持续时间的一致性。我们的工作为构建下一代富有表现力的 S2ST 系统建立了一个更简单、更有效的范例。音频样本可在此 https URL 获取 ...