文档图像封装了丰富的知识,而语音查询的可移植性则实现了更广泛、灵活的应用场景。然而,之前的工作还没有探索通过直接在语音中提供的查询来通过视觉文档图像进行知识库问答。我们提出了 TextlessRAG,这是第一个针对大规模文档图像进行基于语音的问答的端到端框架。与之前的方法不同,TextlessRAG 消除了 ASR、TTS 和 OCR,直接解释语音、检索相关视觉知识,并在完全无文本的管道中生成答案。为了进一步提高性能,我们集成了布局感知重排序机制来优化检索。实验证明效率和准确性都有显着提高。为了推进这一方向的研究,我们还发布了第一个双语语音文档 RAG 数据集,其中包含中文和英文语音查询以及多模态文档内容。数据集和我们的管道都将在存储库中提供:此 https URL ...
我们介绍 ChatGLM,这是我们一直在开发的一个不断发展的大型语言模型家族。本报告主要关注 GLM-4 语言系列,包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了我们最有能力的模型,这些模型接受了从前三代 ChatGLM 中获得的所有见解和经验教训 ...
口语对话模型具有明显高级的智能人\ TextEndandash计算机交互,但是它们缺乏插件\ TextendEndash,\ TextEndAsh播放完整\ TextEndEndash Duplex预测模块,用于语义端点检测,阻碍无缝的音频交互。在本文中,我们介绍了基于LLM \ TextEndEndash的模型Phoenix \ TextEndashvad,该模型可启用流式语义端点检测。具体而言,Phoenix \ TextEndash VAD利用LLM的语义理解能力和滑动窗口训练策略,以实现可靠的语义端点检测,同时支持流推断 ...
本文介绍了Step-Adio〜2,这是一种端到端的多模式大型语言模型,旨在行业强度的音频理解和语音对话。通过整合潜在的音频编码器和以推理为中心的增强学习(RL),Step-Adio 2可以在自动语音识别(ASR)和音频理解中实现有希望的表现。为了促进真正的端到端语音对话,Step-Audio 2将离散的音频 Token 的产生结合到语言建模中,从而大大提高了其对副语言信息(例如说话风格和情感)的响应能力 ...
大型语言模型 (LLM) 最近引起了广泛关注,主要是因为它们在基于文本的交互方面的能力。然而,自然的人类交互通常依赖于语音,因此需要转向基于语音的模型。实现这一目标的一个简单方法涉及“自动语音识别(ASR)+ LLM + 文本到语音(TTS)”的管道,其中输入语音被转录为文本,由 LLM 处理,然后转换回语音 ...
自动语音识别(ASR)取得了显着的进步,但在很大程度上依赖于大规模标记的数据,这对于像越南这样的低资源语言而言是稀缺的。尽管诸如耳语,USM和MMS之类的现有系统达到了有希望的性能,但它们的功效在培训成本,延迟和可及性方面仍然不足。为了解决这些问题,我们提出了Vietasr,这是一种新型的ASR培训管道,它利用大量未标记的数据和一小部分标记数据 ...
端到端口语模型(SLM)的最新进展已大大提高了AI系统进行自然口语互动的能力。但是,大多数现有模型仅将语音视为语言内容的工具,经常忽略嵌入在人类言语中的丰富语言和说话者的特征提示,例如方言,年龄,情感和非语音发声。在这项工作中,我们介绍了一种具有副语言和说话者特征意识的新型口语模型,旨在将口语建模扩展到文本语义之外 ...
语音的视频记录包含相关的音频和视觉信息,为语音表示从说话者的唇部运动和产生的声音提供了强烈的信号。我们介绍了视听隐藏单元BERT(AV-HUBERT),这是一个自我监督的表示框架,用于视听语音,该框架掩盖了多流视频输入并预测自动发现并迭代完善的多模式隐藏单元。 Av-Hubert学习了有力的视听语音表示形式,从而使唇部阅读和自动语音识别受益 ...
基于音频的自动语音识别(ASR)在嘈杂的环境中显着降低,并且特别容易干扰语音,因为该模型无法确定要转录的说话者。视听语音识别(AVSR)系统通过使用噪声不变的视觉信息补充音频流来改善鲁棒性,并帮助模型专注于所需的扬声器。但是,以前的AVSR工作仅着眼于监督的学习设置。因此,可用的标记数据量阻碍了进度 ...
本文介绍了 F5-TTS,这是一种基于扩散 Transformer (DiT) 流匹配的完全非自回归文本转语音系统。不需要时长模型、文本编码器、音素对齐等复杂的设计,只需将文本输入用填充标记填充到与输入语音相同的长度,然后进行去噪以进行语音生成,这最初被E2证明是可行的语音合成。然而,E2 TTS 的原始设计由于其收敛速度慢且鲁棒性低而难以遵循 ...