最近的工作报告通过群体相对策略优化(GRPO)在神经文本到语音(TTS)中获得增长。但是,在没有对\ textit {trosody}的可验证奖励的情况下,接受了以转录为导向的信号(CER/NLL)培训的GRPO降低了错误率,但会使韵律崩溃成单调,不自然的语音;添加扬声器相似性进一步破坏了培训并降低CER。我们使用\ textIt {迭代直接偏好优化(DPO)}方案来解决此问题,该方案仅使用几百个 ...
0 0 0 2025/09/25 arXiv:2509.18531v1 ka
本文提出了一种基于GRPO的方法,以通过从现成的自动语音识别(ASR)模型获得奖励来增强大语模型(LLM)基于基于文本的语音(TTS)模型的性能。与以前基于LLM的TTS的强化学习方法相比,我们的方法不需要专门的模型来奖励计算或培训。此外,我们设计了一个综合奖励函数,该功能将字符错误率(CER)与从ASR模型获得的负模样(NLL)结合在一起,提供了更有信息和准确的奖励信号 ...
0 0 0 2025/09/25 arXiv:2509.18798v1 ka
大型语言模型(LLM)的最新进展显着影响了多跳问答(MHQA)的领域,其中需要系统来汇总信息并从不同的文本中推断答案。但是,LLM的自回旋性质固有地提出了挑战,因为如果在中间推理步骤中犯了错误,则可能会累积错误。本文介绍了Monte-Carlo树搜索以零击的多跳询问答案(MZQA),该框架基于蒙特卡洛树搜索(MCT),以识别MHQA任务中的最佳推理路径,从而缓解了从顺序推理过程中的错误传播 ...
0 0 0 2025/09/25 arXiv:2409.19382v2 xld
在庞大的数字信息时代,可用信息的庞大数量和异质性为复杂的信息寻求带来了重大挑战。用户经常面临多步骤Web搜索任务,涉及导航大量和多样化的数据源。这种复杂性需要每个步骤仍然是全面,准确和相关的 ...
0 0 0 2025/09/25 arXiv:2502.04751v1 xld
denoising扩散概率模型最近受到了很多研究的关注,因为它们胜过诸如gan之类的替代方法,并且目前提供最先进的生成性能。扩散模型的出色性能使它们成为多种应用程序中有吸引力的工具,包括介绍,超分辨率和语义编辑。在本文中,我们证明了扩散模型也可以用作语义分割的工具,尤其是在标记数据稀缺时的设置中 ...
0 0 0 2025/09/25 arXiv:2112.03126v3 WenyuMi
在本文中,我们向West(We Speak Toolkit)展示了基于大型语言模型(LLM)的语音工具包,用于语音理解,生成和互动。西方有三个关键特征:1)完全基于LLM:通过重复成熟的建筑,生态系统(例如,站在巨人的肩膀上)(例如 ...
0 0 0 2025/09/25 arXiv:2509.19902v1 13724122396
在本文中,我们介绍了DreamID,这是一种基于扩散的面部交换模型,可实现高水平的ID相似性,属性保存,图像保真度和快速推理速度。与典型的面部交换培训过程不同,这通常依赖于隐性的监督和努力实现令人满意的结果。 DreamID通过构建三胞胎ID组数据来建立明确的面部交换监督,从而显着增强身份相似性和属性保存 ...
0 0 0 2025/09/25 arXiv:2504.14509v3 alanyhan
四足动力的深入加强学习(DRL)控制器在具有挑战性的地形上表现出令人印象深刻的表现,使机器人能够执行复杂的技能,例如攀爬,跑步和跳跃。但是,现有的盲人运动控制器通常难以确保通过危险的缝隙地形进行安全和有效的遍历,这些缝隙地形通常是高度复杂的,需要机器人能够感知地形信息并准确地选择适当的立足点。同时,现有的基于感知的控制器仍然存在一些实际的限制,包括复杂的多传感器部署系统和昂贵的计算资源要求 ...
0 0 0 2025/09/25 arXiv:2509.20036v1 yukun

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)