一译 —— 文档和论文翻译、对照阅读、讨论和社区

Recent Advances in Direct Speech-to-text Translation

最近，语音到文本的翻译吸引了越来越多的关注，许多研究迅速出现。在本文中，我们介绍了有关直接语音翻译的全面调查，旨在总结当前的最新技术。首先，我们根据主要挑战将现有的研究工作分为三个方向 - 建模负担，数据稀缺和应用程序问题 ...

0 0 0 2025/03/31 arXiv:2306.11646v1 小肥柴

Direct Speech-to-Speech Neural Machine Translation: A Survey

语音到语音翻译（S2ST）模型使用相同的语言信息将语音从一种语言转换为另一种目标语言。 S2ST对于弥合社区之间的沟通差距很重要，并且具有多种应用。近年来，研究人员引入了直接的S2ST模型，这些模型有可能在不依赖中间文本生成的情况下翻译语音，具有更好的解码延迟，并具有保留副语言和非语言特征的能力 ...

0 0 0 2025/03/31 arXiv:2411.14453v1 小肥柴

History-Guided Video Diffusion

无分类器引导（CFG）是改善扩散模型中有条件产生的关键技术，在增强样品质量的同时，可以更准确地控制。将此技术扩展到视频扩散是很自然的，该视频扩散会生成以可变数量的上下文框架（共同称为历史记录）为条件的视频。但是，我们发现有两个关键的挑战，可以通过可变的历史记录进行指导：仅支持固定尺寸条件的体系结构，以及CFG风格历史记录辍学效果较差的经验观察 ...

0 0 0 2025/03/31 arXiv:2502.06764v1 kevinson

Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

对非语音声音和音乐的理解和推理对于人类和AI代理人与环境有效互动至关重要。在本文中，我们介绍了Audio Flamingo 2（AF2），这是一种音频语言模型（ALM），具有先进的音频理解和推理功能。 AF2利用（i）自定义拍手模型，（ii）用于细粒音频推理的合成音频QA数据，以及（iii）多阶段的课程学习策略 ...

0 0 0 2025/03/31 arXiv:2503.03983v1 aqzlpm11

MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models

人工智能 (AI) 在医疗保健领域，特别是在疾病诊断和治疗计划方面，展现了巨大的潜力。医学大视觉语言模型 (Med-LVLM) 的最新进展为交互式诊断工具开辟了新的可能性。然而，这些模型经常遭受事实幻觉，这可能导致错误的诊断 ...

0 0 0 2025/03/31 arXiv:2410.13085v2 15966829631

DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

最近，扩散模型已成为机器人策略学习的强大生成技术，能够对多模式动作分布进行建模。利用其端到端自动驾驶能力是一个有前途的方向。然而，机器人扩散策略中的众多去噪步骤以及交通场景更加动态、开放的性质对实时生成不同的驾驶动作提出了巨大的挑战 ...

0 0 0 2025/03/31 arXiv:2411.15139v2 Heathens

Learning to Denoise Biomedical Knowledge Graph for Robust Molecular Interaction Prediction

分子相互作用预测在预测分子之间的未知相互作用（例如药物靶标相互作用（DTI）和药物 - 药物相互作用（DDI）（DDI）中起着至关重要的作用，这在药物发现和治疗学领域至关重要。尽管先前的预测方法通过利用了生物医学知识图（KGS）的丰富语义和拓扑结构而产生了令人鼓舞的结果，但它们主要集中于增强预测性能，而无需解决不可避免的噪声和不一致语义的存在。这种限制阻碍了基于KG的预测方法的进步 ...

0 0 0 2025/03/31 arXiv:2312.06682v2 xixiaixixi

R$^3$Net:Relation-embedded Representation Reconstruction Network for Change Captioning

更改字幕是使用自然语言句子描述两个相似图像之间的细粒度分歧。观点变化是此任务中最典型的干扰因素，因为它会更改对象的比例和位置，并压倒了真实变化的表示。在本文中，我们提出了一个关系所限制的表示网络（r $^3 $ net），以明确区分真正的变化与大量混乱和无关紧要的变化 ...

0 0 0 2025/03/31 arXiv:2110.10328v1 17733052961

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）