神经音频编解码器 Token 是基于语音语言模型 (SLM) 的语音生成的基本构建块。然而,对于编解码系统如何影响SLM的语音生成性能还没有系统的了解。在这项工作中,我们检查 SLM 框架内用于语音生成的编解码器 Token ,为有效的编解码器设计提供见解 ...

0 0 0 0 2024/09/09 arXiv:2409.04016v1 luffy

自监督学习已被证明有益于广泛的语音处理任务,例如语音识别/翻译、说话人验证和二值化等。然而,由于缺乏子采样或使用聚类,当前的大多数方法在计算上是昂贵的基于语音量化。在本文中,我们提出了一种简化且更高效的自监督学习框架,称为 NeMo 语音任务编码器(NEST) ...

0 0 0 0 2024/09/08 arXiv:2408.13106v3 luffy

长语音序列在建模复杂性和效率方面一直困扰着基于语言模型 (LM) 的 TTS 方法。这项工作提出了 SoCodec,一种语义排序的多流语音编解码器来解决这个问题。它将语音压缩为更短的多流离散语义序列,每帧有多个标记 ...

0 0 0 0 2024/09/06 arXiv:2409.00933v1 luffy

这项工作提出了 FireRedTTS,一种基础文本转语音框架,以满足对个性化和多样化生成语音应用不断增长的需求。该框架由数据处理、基础系统、下游应用三部分组成。首先,我们全面介绍我们的数据处理流程,将大量原始音频转换为大规模高质量 TTS 数据集,该数据集具有丰富的注释以及内容、说话风格和音色的广泛覆盖 ...

0 0 0 0 2024/09/06 arXiv:2409.03283v1 luffy

将语音表示为离散标记提供了一个框架,用于将语音转换为与文本非常相似的格式,从而能够使用语音作为广泛成功的大型语言模型 (LLM) 的输入。目前,虽然已经提出了几种语音分词器,但对于特定下游任务的分词器所需的属性及其整体通用性仍存在模糊性。评估不同下游任务中分词器的性能是一项计算密集型工作,对可扩展性提出了挑战 ...

0 0 0 0 2024/09/05 arXiv:2409.02384v1 luffy

语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑,实现了与人类的实时对话,展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出 ...

0 0 0 0 2024/09/03 arXiv:2408.16725v2 luffy

尽管音频分类取得了进展,但语音和其他声音领域(例如环境声音和音乐)之间仍然存在泛化差距。针对语音任务训练的模型通常无法在环境或音乐音频任务上表现良好,反之亦然。虽然自监督 (SSL) 音频表示提供了一种替代方案,但对于缩放基于 SSL 的通用音频分类的模型和数据集大小的探索有限 ...

0 0 0 0 2024/08/29 arXiv:2406.06992v2 luffy

在本文中,我们提出了MooER,一种基于LLM的Moore Threads大规模自动语音识别(ASR)/自动语音翻译(AST)模型。使用包含开源和自行收集的语音数据的 5000h 伪标记数据集进行训练。我们获得的性能可与使用长达数十万小时的标记语音数据训练的其他开源模型相媲美 ...

0 0 0 0 2024/08/24 arXiv:2408.05101v1 luffy

参数高效的微调 (PEFT) 对于在资源有限的情况下定制大型语言模型 (LLM) 至关重要。尽管针对密集架构 LLM 已有多种 PEFT 方法,但针对稀疏架构 LLM 的 PEFT 仍处于探索之中。在这项工作中,我们研究了具有专家混合(MoE)架构的 LLM 的PEFT方法,这项工作的内容主要有三个:(1)我们研究了定制任务中激活专家的分散程度,发现特定任务的路由分布往往高度集中,而不同任务的激活专家的分布差异很大 ...

0 0 0 0 2024/08/18 arXiv:2407.01906v2 luffy

基于大型语言模型 (LLM) 的应用程序由 LLM 和非 LLM 组件组成,每个组件都会导致端到端延迟。尽管在优化 LLM 推理方面付出了巨大努力,但端到端工作流程优化却被忽视了。现有框架采用任务模块的粗粒度编排,这将优化限制在每个模块内,并产生次优的调度决策 ...

0 0 0 0 2024/08/17 arXiv:2407.00326v1 luffy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)