流匹配表现出强大的生成能力,并已成为现代文本到语音(TTS)系统的核心组成部分。为了确保高质量的语音综合,在基于流量匹配的TTS模型的推断期间,无分类器指导(CFG)被广泛使用。但是,CFG会产生大量的计算成本,因为它需要两个正向通行证,这阻碍了其在实时场景中的适用性 ...
0 0 0 2025/04/30 arXiv:2504.20334v1 luffy
Kilmer和Martin〜 \ Cite {2011Kilmer}提出的三阶张量的张量奇异值分解(T-SVD)已成功地用于许多领域,例如计算机断层扫描,面部识别和视频完成。在本文中,我们提出了一种将众所周知的随机矩阵方法扩展到T-SVD的方法。该方法可以产生与T-SVD相似属性的分解化,但是在非常大的数据集上,计算上更有效 ...
0 0 0 2025/04/30 arXiv:1609.07086v1 FOUR_A
我们提出了分段整流流(Perflow),这是一种基于流量的加速扩散模型的方法。 Perflow将生成流的采样过程分为几个时间窗口,并通过反射操作在每个间隔中拉直轨迹,从而接近分段线性流。 Perflow在几步一代中取得了出色的性能 ...
0 0 0 2025/04/30 arXiv:2405.07510v5 rosyclouds
近年来,图像编辑模型见证了巨大而快速的发展。 GPT-4O和Gemini2 Flash等尖端多模型的最新揭幕引入了非常有前途的图像编辑功能。这些模型表明了满足绝大多数用户驱动的编辑要求的令人印象深刻的才能,这标志着图像操纵领域的显着进步 ...
0 0 0 2025/04/30 arXiv:2504.17761v2 alanyhan
语音处理的最新发展,例如语音识别,说话者诊断等,激发了众多语音技术的应用。会议场景是最有价值的情况之一,同时是部署语音技术的最具挑战性的情况 ...
0 0 0 2025/04/30 arXiv:2110.07393v3 13724122396
在现代推荐系统中,用户行为的建模至关重要。许多研究重点是建模用户的终身序列,这些序列可能非常长,有时超过数千个项目。这些模型使用目标项目来搜索历史序列中最相关的项目 ...
0 0 0 2025/04/30 arXiv:2407.10714v1 Zophe
在本文中,我们介绍了一种基于剩余分析的强大技术,以研究低级别矩阵完成问题。使用此技术,我们开发了一种通用方法,用于在存在概率依赖性的情况下为迭代随机程序获得细粒度的进入界。我们证明了这种方法在分析矩阵完成的两种最重要的算法中的力量:(i)基于投影梯度下降(PGD)的非凸方法的方法,用于施加秩​​的配方,也称为单数值投影算法,也称为单一值投影算法,以及(ii)基于核量规范化的convex helfi ...
0 0 0 2025/04/30 arXiv:1803.07554v3 morri
最近的文本到图像生成模型,例如稳定的扩散V3和Flux,取得了显着的进步 ...
0 0 0 2025/04/30 arXiv:2502.00848v1 likelike

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)