最近,语音到文本的翻译吸引了越来越多的关注,许多研究迅速出现。在本文中,我们介绍了有关直接语音翻译的全面调查,旨在总结当前的最新技术。首先,我们根据主要挑战将现有的研究工作分为三个方向 - 建模负担,数据稀缺和应用程序问题 ...
0 0 0 2025/03/31 arXiv:2306.11646v1 小肥柴
语音到语音翻译(S2ST)模型使用相同的语言信息将语音从一种语言转换为另一种目标语言。 S2ST对于弥合社区之间的沟通差距很重要,并且具有多种应用。近年来,研究人员引入了直接的S2ST模型,这些模型有可能在不依赖中间文本生成的情况下翻译语音,具有更好的解码延迟,并具有保留副语言和非语言特征的能力 ...
0 0 0 2025/03/31 arXiv:2411.14453v1 小肥柴
无分类器引导(CFG)是改善扩散模型中有条件产生的关键技术,在增强样品质量的同时,可以更准确地控制。将此技术扩展到视频扩散是很自然的,该视频扩散会生成以可变数量的上下文框架(共同称为历史记录)为条件的视频。但是,我们发现有两个关键的挑战,可以通过可变的历史记录进行指导:仅支持固定尺寸条件的体系结构,以及CFG风格历史记录辍学效果较差的经验观察 ...
0 0 0 2025/03/31 arXiv:2502.06764v1 kevinson
对非语音声音和音乐的理解和推理对于人类和AI代理人与环境有效互动至关重要。在本文中,我们介绍了Audio Flamingo 2(AF2),这是一种音频语言模型(ALM),具有先进的音频理解和推理功能。 AF2利用(i)自定义拍手模型,(ii)用于细粒音频推理的合成音频QA数据,以及(iii)多阶段的课程学习策略 ...
0 0 0 2025/03/31 arXiv:2503.03983v1 aqzlpm11
人工智能 (AI) 在医疗保健领域,特别是在疾病诊断和治疗计划方面,展现了巨大的潜力。医学大视觉语言模型 (Med-LVLM) 的最新进展为交互式诊断工具开辟了新的可能性。然而,这些模型经常遭受事实幻觉,这可能导致错误的诊断 ...
0 0 0 2025/03/31 arXiv:2410.13085v2 15966829631
最近,扩散模型已成为机器人策略学习的强大生成技术,能够对多模式动作分布进行建模。利用其端到端自动驾驶能力是一个有前途的方向。然而,机器人扩散策略中的众多去噪步骤以及交通场景更加动态、开放的性质对实时生成不同的驾驶动作提出了巨大的挑战 ...
0 0 0 2025/03/31 arXiv:2411.15139v2 Heathens
分子相互作用预测在预测分子之间的未知相互作用(例如药物靶标相互作用(DTI)和药物 - 药物相互作用(DDI)(DDI)中起着至关重要的作用,这在药物发现和治疗学领域至关重要。尽管先前的预测方法通过利用了生物医学知识图(KGS)的丰富语义和拓扑结构而产生了令人鼓舞的结果,但它们主要集中于增强预测性能,而无需解决不可避免的噪声和不一致语义的存在。这种限制阻碍了基于KG的预测方法的进步 ...
0 0 0 2025/03/31 arXiv:2312.06682v2 xixiaixixi
更改字幕是使用自然语言句子描述两个相似图像之间的细粒度分歧。观点变化是此任务中最典型的干扰因素,因为它会更改对象的比例和位置,并压倒了真实变化的表示。在本文中,我们提出了一个关系所限制的表示网络(r $^3 $ net),以明确区分真正的变化与大量混乱和无关紧要的变化 ...
0 0 0 2025/03/31 arXiv:2110.10328v1 17733052961

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)