大型语言模型(LLM)在自然语言处理方面取得了重大进步,并同时将语言能力扩展到其他方式,例如语音和愿景。然而,以前的大多数工作都着重于提示具有听觉理解的感知能力的LLM,并且具有语音合成能力增强LLM的有效方法仍然模棱两可。在本文中,我们通过结合预先训练的LLM Llama/opt和文本到语音综合模型VALL-E来对增强LLM具有产生语音的能力进行全面的经验探索 ...
随着临界领域的机器学习模型越来越多地应对多模式数据,他们面临着处理各种方式的双重挑战,通常由于缺失的元素以及收集的样本的时间不规则性和稀疏性而经常不完整。在克服高质量培训样本的稀缺时,成功利用这些复杂数据是改善这些模型的预测性能的关键。我们介绍了``fusemoe'',这是一种与创新的门控函数合并的专家框架 ...
我们介绍了Phi-4-Mini和Phi-4-Multimodal,紧凑但功能高度的语言和多模型模型。 PHI-4-MINI是一种3.8亿参数语言模型,该模型在高质量的Web和合成数据上训练,大大优于最近大小相似的开源模型,并匹配其在数学和编码任务上的大小和需要复杂推理的模型的性能 ...
我们提出了深度压缩自动编码器(DC-AE),这是一个新的自动编码器模型系列,用于加速高分辨率扩散模型。现有的自动编码器模型在适度的空间压缩比下表现出了令人印象深刻的结果(例如 ...
商业视频生成模型已经展现出真实、高保真的结果,但仍然受到有限的访问。大规模应用的一个关键障碍是昂贵的训练和推理成本。在本文中,我们认为视频比图像包含更多的冗余信息,因此可以基于内容图像通过很少的运动潜在特征进行编码 ...
最近的多模态大语言模型(MLLM)通常侧重于整合视觉和文本模态,而不太强调语音在增强交互中的作用。然而,语音在多模态对话系统中起着至关重要的作用,由于基本模态差异,在视觉和语音任务中实现高性能仍然是一个重大挑战。在本文中,我们提出了一种精心设计的多阶段训练方法,逐步训练 LLM 理解视觉和语音信息,最终实现流畅的视觉和语音交互 ...
随着大型语言模型的快速发展,研究人员创建了越来越先进的口语对话系统,可以自然地与人类交谈。然而,这些系统仍然难以处理现实世界对话的全部复杂性,包括音频事件、音乐背景和情感表达,这主要是因为当前的对话数据集在规模和场景多样性方面都受到限制。在本文中,我们建议利用合成数据来增强跨不同场景的对话模型 ...
最近,基于语音单元的“无文本”语音语言模型(SLM)在生成自然语音(包括非言语发声)方面取得了巨大进展。然而,生成的语音样本通常缺乏语义连贯性。在本文中,我们提出了 SLM 和自发口语对话生成 (SLIDE) 的 LLM 集成 ...
我们引入了 dGSLM,这是第一个能够生成自然口语对话的音频样本的“无文本”模型。它使用了最近关于无监督语音单元发现的工作,以及双塔 Transformer 架构,该架构具有交叉注意力,在 2000 小时的双通道原始对话音频(Fisher 数据集)上进行了训练,没有任何文本或标签。我们表明,与基于文本的级联模型相比,我们的模型能够在两个通道中同时生成语音、笑声和其他副语言信号,并再现更自然和流畅的轮流 ...
语音情感转换是修改语音话语的感知情感,同时保留词汇内容和说话者身份的任务。在本研究中,我们将情感转换问题视为口语翻译任务。我们将语音信号分解为离散的学习表示,由语音内容单元、韵律特征、说话者和情感组成 ...