arxiv Advancing Speech Language Models by Scaling Supervised Fine-Tuning with Over 60,000 Hours of Synthetic Speech Dialogue Data

/documents/72765/

基本信息

文件基本信息

名称
Advancing Speech Language Models by Scaling Supervised Fine-Tuning with Over 60,000 Hours of Synthetic Speech Dialogue Data
描述
GPT-4o 代表了通过语音与大型语言模型 (LLM) 进行实时交互的一个重要里程碑,其卓越的低延迟和高流畅性不仅引起了人们的关注,而且激发了该领域的研究兴趣。这种实时语音交互在需要快速反馈和即时响应的场景中尤其有价值,可以极大地提升用户体验。然而,针对实时大型语音语言模型(尤其是中文)的研究明显缺乏。在这项工作中,我们提出了 KE-Omni,这是一个基于 Ke-SpeechChat 构建的无缝大型语音语言模型,Ke-SpeechChat 是一个包含 700 万条中英文对话、42,002 名说话人、总计超过 60,000 小时的大规模高质量合成语音交互数据集,这对该领域的研究和开发进步做出了重大贡献。可以通过 \url{此 https URL} 访问演示 ...