对于语音相互作用,语音活动检测(VAD)通常用作前端。但是,传统的VAD算法通常需要等待连续的尾部沉默才能在细分之前达到预设的最大持续时间,从而产生了影响用户体验的较大延迟。在本文中,我们提出了一种新型的语义VAD,以进行低延迟分割 ...

0 0 0 0 2025/06/10 arXiv:2305.12450v1 lichenbook

自动语音识别(ASR)取得了显着的进步,但在很大程度上依赖于大规模标记的数据,这对于像越南这样的低资源语言而言是稀缺的。尽管诸如耳语,USM和MMS之类的现有系统达到了有希望的性能,但它们的功效在培训成本,延迟和可及性方面仍然不足。为了解决这些问题,我们提出了Vietasr,这是一种新型的ASR培训管道,它利用大量未标记的数据和一小部分标记数据 ...

0 0 0 0 2025/05/29 arXiv:2505.21527v1 lichenbook

实时语音互动是人机合作的基本接口,具有巨大的潜力。但是,当前的开源模型面临着诸如语音数据收集的高成本,动态控制中的弱点和智力有限的限制。为了应对这些挑战,本文介绍了Step-Audio,这是第一个可以生产的开源解决方案 ...

0 0 0 0 2025/02/18 arXiv:2502.11946v1 lichenbook

大型自动语音识别 (ASR) 模型在训练过程中需要大量参数、大量数据和大量计算资源。然而,此类模型只能部署在高计算云平台上,并且只能执行语音识别任务。这导致高成本和有限的能力 ...

0 0 0 0 2024/12/23 arXiv:2412.15622v1 lichenbook

连接主义时间分类 (CTC) 是一种广泛使用的自动语音识别 (ASR) 方法,以其简单性和计算效率而闻名。然而,与结合 CTC 和基于注意力的编码器-解码器 (CTC/AED) 的传感器或系统相比,它的识别性能通常较差。在这项工作中,我们提出了一致性正则化 CTC (CR-CTC),它强制从输入语音梅尔频谱图的不同增强视图获得的两个 CTC 分布之间的一致性 ...

0 0 0 0 2024/12/18 arXiv:2410.05101v3 lichenbook

置信度分数对于自动语音识别 (ASR) 系统的下游应用非常有用。最近的工作提出使用神经网络来学习端到端 ASR 的单词或话语置信度分数。在这些研究中,单词置信度本身不会对删除进行建模,并且话语置信度不会利用单词级训练信号 ...

0 0 0 0 2024/12/10 arXiv:2104.12870v1 lichenbook

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)