个性签名 ...
本文介绍了 F5-TTS,这是一种基于扩散 Transformer (DiT) 流匹配的完全非自回归文本转语音系统。不需要时长模型、文本编码器、音素对齐等复杂的设计,只需将文本输入用填充标记填充到与输入语音相同的长度,然后进行去噪以进行语音生成,这最初被E2证明是可行的语音合成。然而,E2 TTS 的原始设计由于其收敛速度慢且鲁棒性低而难以遵循 ...
对于语音相互作用,语音活动检测(VAD)通常用作前端。但是,传统的VAD算法通常需要等待连续的尾部沉默才能在细分之前达到预设的最大持续时间,从而产生了影响用户体验的较大延迟。在本文中,我们提出了一种新型的语义VAD,以进行低延迟分割 ...
自动语音识别(ASR)取得了显着的进步,但在很大程度上依赖于大规模标记的数据,这对于像越南这样的低资源语言而言是稀缺的。尽管诸如耳语,USM和MMS之类的现有系统达到了有希望的性能,但它们的功效在培训成本,延迟和可及性方面仍然不足。为了解决这些问题,我们提出了Vietasr,这是一种新型的ASR培训管道,它利用大量未标记的数据和一小部分标记数据 ...