- 名称
- Streaming Speaker Change Detection and Gender Classification for Transducer-Based Multi-Talker Speech Translation
- 描述
流式多说话者语音翻译是一项任务,不仅涉及以低延迟生成准确、流畅的翻译,还涉及识别说话者何时发生变化以及说话者的性别。说话者变化信息可用于为零样本文本转语音系统创建音频提示,而性别可以帮助在传统文本转语音模型中选择说话者配置文件。我们建议通过将说话人嵌入合并到基于转换器的流式端到端语音翻译模型中来解决流式说话人变化检测和性别分类问题 ...