我们提出了 VoiceDiT,这是一种多模式生成模型,用于根据文本和视觉提示生成环境感知的语音和音频。虽然将语音与文本对齐对于可理解的语音至关重要,但在嘈杂的条件下实现这种对齐仍然是该领域的一个重大且尚未充分探索的挑战。为了解决这个问题,我们提出了一种名为 VoiceDiT 的新型音频生成管道 ...

0 0 0 0 2025/01/14 arXiv:2412.19259v1 wenwen

本文的目标是学习双语场景中稳健的说话人表示。世界上大多数人口至少讲两种语言;然而,大多数说话人识别系统在使用不同语言说话时无法识别同一说话人。流行的说话人识别评估集没有考虑双语场景,因此很难分析双语说话人对说话人识别性能的影响 ...

0 0 0 0 2025/01/14 arXiv:2211.00437v3 wenwen

美国法院将口头辩论的录音作为公共记录提供,但这些录音很少包括发言者注释。本文解决了语音音频分类问题,回答了“谁在何时说话?”的问题。在司法口头辩论程序领域。我们提出了一个使用口头辩论录音来记录法官演讲的工作流程,我们将这个过程称为“参考相关说话人验证” ...

0 0 0 0 2025/01/09 arXiv:2104.01304v1 wenwen

这项工作提出了一个基于特征解缠的框架,用于学习对环境变化具有鲁棒性的说话者嵌入。我们的框架利用自动编码器作为解缠器,将输入说话者嵌入划分为与说话者和其他残留信息相关的组件。我们采用一组目标函数来确保自动编码器的代码表示(用作细化嵌入)仅压缩说话者特征 ...

0 0 0 0 2025/01/09 arXiv:2406.14559v1 wenwen

自监督学习(SSL)模型面临着突然的信息崩溃或缓慢的维度崩溃的挑战。我们提出了 TriNet,它引入了一种新颖的三分支架构,用于防止崩溃并稳定预训练。 TriNet 学习 SSL 潜在嵌入空间并将其合并到更高级别的空间中,以预测由冻结的教师生成的伪目标向量 ...

0 0 0 0 2025/01/09 arXiv:2301.00656v2 wenwen

Mamba 是一种新提出的架构,其行为类似于具有类似注意力功能的循环神经网络 (RNN)。这些特性对于说话人二值化来说很有前景,因为基于注意力的模型对长格式音频的内存要求不合适,而且传统的 RNN 功能太有限。在本文中,我们建议通过将 pyannote 管道的最先进的神经分割与我们提出的基于 Mamba 的变体进行比较来评估 Mamba 在二值化方面的潜力 ...

0 0 0 0 2025/01/09 arXiv:2410.06459v2 wenwen

神经网络最近已成为声音分离的主要方法。它们的良好性能依赖于独立录音的大型数据集。对于语音和音乐,可以随时获得隔离的单通道数据;然而,在多通道情况以及大多数其他声音类别中,情况并不成立 ...

0 0 0 0 2024/12/17 arXiv:2406.06310v4 wenwen

全双工通信系统中的声学回声消除 (AEC) 可消除声学反馈。然而,音频设备、背景噪声、混响和双向通话引起的非线性失真降低了传统 AEC 系统的效率。为了解决这个问题,人们提出了几种混合 AEC 模型,这些模型使用深度学习模型来抑制标准自适应滤波的残余回声 ...

0 0 0 0 2024/12/04 arXiv:2111.04904v2 wenwen

本文描述了一种用于多通道多方会议的空间感知发言者分类系统。二值化系统通过麦克风阵列获取说话人的方向信息。说话人空间嵌入由超定向波束形成 (SDB) 派生的 x 向量和 s 向量生成,这使得嵌入更加鲁棒 ...

0 0 0 0 2024/12/04 arXiv:2209.12002v1 wenwen

尽管现有的逐帧全神经波束形成器在语音增强领域表现良好,但仍不清楚其潜在机制是什么。在本文中,我们从波束空间字典的角度重新审视波束形成行为,并将其表述为不同波束空间组件的学习和混合。在此基础上,我们提出了一种名为 TaylorBM 的全神经波束形成器来模拟泰勒级数展开操作,其中 0 阶项作为空间滤波器来进行波束混合,而几个高阶项的任务是消除残余噪声后处理 ...

0 0 0 0 2024/12/04 arXiv:2211.12024v3 wenwen

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)