大型语言模型预训练的数据混合会对性能产生显着影响,但如何确定有效的混合仍然是雅典娜。我们建议RegMix通过将其制定的回归任务来自动识别数据混合。RegMix涉及使用不同的数据混合训练一组小模型,并返回回归模型以预测它们各自混合的性能... ...
0 0 0 2025/02/11 arXiv:2407.01492v2 xinn
预测综合语音的听众意见的自动方法仍然难以捉摸,因为听众,评估系统,语音的特征,甚至给出的说明和评级量表都因测试而异。尽管平均意见评分(MOS)等指标的自动预测因素可以实现来自同一测试的样本的高预测准确性,但它们通常无法很好地推广到新的听力测试环境。在本文中,我们使用各种网络进行MOS预测,包括MOSNET和自我监督的语音模型(例如WAV2VEC2),我们研究了它们在零射击和微调设置中不同听力测试的 ...
0 0 0 2025/02/11 arXiv:2110.02635v3 咔酱
自我监督学习(SSL)模型在各种语音任务中表现出了出色的表现,尤其是在低资源和多语言领域。最近的作品表明,与使用一个SSL模型相比,融合不同的SSL模型可以实现出色的性能。但是,融合模型增加了整体参数大小,从而导致更高的计算成本 ...
0 0 0 2025/02/11 arXiv:2310.03938v2 tiandiweizun
现有的音频文本检索(ATR)方法基本上是歧视模型,旨在最大程度地提高条件可能性,表示为P(候选|查询)。然而,该方法无法考虑固有的数据分布P(查询),从而导致辨别分布数据的困难。在这项工作中,我们试图通过生成的观点来应对这一约束,并将音频和文本之间的关系建模为它们的共同概率P(候选人,查询) ...
0 0 0 2025/02/11 arXiv:2409.10025v2 tiandiweizun
大规模的视频生成模型具有现实地对自然场景建模的固有能力。在本文中,我们证明,通过仔细设计生成视频传播框架,可以通过利用此类模型的生成力来以统一的方式来解决各种视频任务。具体来说,我们的框架GenProp用选择性内容编码编码原始视频,并使用图像到视频生成模型传播对第一帧的更改 ...
0 0 0 2025/02/11 arXiv:2412.19761v1 Juken
本文介绍了一个新的语音数据集,称为``libritts-r'',专为文本到语音(TTS)使用而设计。它是通过将语音恢复应用于库里特语料库来得出的,该语音恢复由2456位扬声器和相应文本的24 kHz抽样率的585小时的语音数据组成。 Libritts-R的组成样本与Libritts相同,只有声音质量得到改善 ...
0 0 0 2025/02/11 arXiv:2305.18802v1 tiandiweizun
直接路径相对传递函数(DP-RTF)是指两个麦克风通​​道的直接路径声传递函数之间的比率。尽管DP-RTF完全编码声音空间提示并用作可靠的定位功能,但通常会在噪声和混响的存在下错误地估计它。本文提议学习具有深层神经网络的DP-RTF,以进行强大的双耳声源定位 ...
0 0 0 2025/02/11 arXiv:2202.07841v1 LJH
尽管训练图像模型的智慧模型可以减轻收集现实世界中的朦胧/清洁图像对的困难,但它带来了众所周知的域移位问题。从不同但新的角度来看,本文通过对抗性训练的工作探讨了对比度学习,以利用未配对的现实世界的朦胧和干净的图像,从而避免了合成和现实世界中的雾化之间的差距。我们提出了一个有效的无监督的对比度学习范式,用于去掩饰,称为UCL-DeHaze ...
0 0 0 2025/02/11 arXiv:2205.01871v1 Sally

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)