基本信息

文件基本信息

名称

Advancing Speech Language Models by Scaling Supervised Fine-Tuning with Over 60,000 Hours of Synthetic Speech Dialogue Data

首页

https://yiyibooks.cn/arxiv/2412.01078v2/index.html

原始地址

https://arxiv.org/pdf/2412.01078

描述

GPT-4o 代表了通过语音与大型语言模型 (LLM) 进行实时交互的一个重要里程碑，其卓越的低延迟和高流畅性不仅引起了人们的关注，而且激发了该领域的研究兴趣。这种实时语音交互在需要快速反馈和即时响应的场景中尤其有价值，可以极大地提升用户体验。然而，针对实时大型语音语言模型（尤其是中文）的研究明显缺乏。在这项工作中，我们提出了 KE-Omni，这是一个基于 Ke-SpeechChat 构建的无缝大型语音语言模型，Ke-SpeechChat 是一个包含 700 万条中英文对话、42,002 名说话人、总计超过 60,000 小时的大规模高质量合成语音交互数据集，这对该领域的研究和开发进步做出了重大贡献。可以通过 \url{此 https URL} 访问演示 ...