arxiv Scaling Speech-Text Pre-training with Synthetic Interleaved Data

名称
Scaling Speech-Text Pre-training with Synthetic Interleaved Data
首页
https://yiyibooks.cn/arxiv/2411.17607v2/index.html
原始地址
https://arxiv.org/pdf/2411.17607
描述
语音语言模型(SpeechLMS)接受语音输入并产生语音输出,与基于文本的大语言模型(LLMS)相比,可以更自然的人类计算机互动。开发语音L的传统方法受到无监督语音数据的可用性和并行语音文本数据的限制,这些数据的丰富性明显不如文本预训练数据,从而限制了它们作为LLMS的可扩展性。我们提出了一种新颖的方法来扩展语音文本预训练,以利用从文本语料库得出的大规模合成交织数据,从而消除了对平行语音文本数据集的需求 ...