一译 —— 文档和论文翻译、对照阅读、讨论和社区

OV-DQUO: Open-Vocabulary DETR with Denoising Text Query Training and Open-World Unknown Objects Supervision

开放式视频检测旨在从训练探测器的基本类别之外的新类别中检测物体。但是，在基础类别数据上训练的现有开放式摄氏探测器倾向于将更高的信心分配给训练有素的类别，并使新型类别与背景相混淆。为了解决这个问题，我们提出了ov-dquo，一个\ textbf {o} pen- \ textbf {v} ocabulary用\ textbf {d} enoising text \ text \ textbf {q} ...

0 0 0 2025/09/04 arXiv:2405.17913v2 19396386025

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass

由于其在VR/AR中的应用并体现了AI，因此3D内容产生最近引起了重大的研究兴趣。在这项工作中，我们解决了在单个场景图像中综合多个3D资产的具有挑战性的任务。具体而言，我们的贡献是四重：（i）我们提出了SceneGen，这是一个新颖的框架，将场景图像和相应的对象掩码作为输入，同时生产具有几何形状和纹理的多个3D资产 ...

0 0 0 2025/09/04 arXiv:2508.15769v1 wonglliam

GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation

我们介绍了GEOSAM2，这是一个可及时控制的3D零件分割框架，将任务作为多视图2D掩码预测。给定一个无纹理的对象，我们从预定义的角度呈现正常和点图，并接受简单的2D提示 - 单击或框 - 指导零件选择。这些提示是通过与Lora和残留几何融合的共享SAM2主链进行处理的，从而在保留预审计的先验的同时，可以实现特定的推理 ...

0 0 0 2025/09/04 arXiv:2508.14036v2 wonglliam

MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

我们提出了第一个联合音频视频生成框架，该框架将同时参与观看和聆听体验带来高质量的现实视频。为了生成关节音频效率对，我们提出了一种新型的多模式扩散模型（即 ...

0 0 0 2025/09/04 arXiv:2212.09478v2 yanghedada

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

我们研究神经Foley，这是自动产生的高质量音效与视频同步，从而实现了沉浸式的视听体验。尽管应用程序广泛，但现有的方法在同时综合高质量和视频一致性方面会遇到限制（即 ...

0 0 0 2025/09/04 arXiv:2407.01494v1 yanghedada

SonicVisionLM: Playing Sound with Vision Language Models

人们对为无声视频发出声音的任务越来越兴趣，这主要是因为它在简化视频后制作方面的实用性。但是，现有的视频生成方法试图直接从视觉表示中创建声音，这可能是由于难以将视觉表示与音频表示形式对齐的困难。在本文中，我们提出了SonicVisionLM，这是一个新型框架，旨在通过利用视觉语言模型（VLM）来产生各种声音效应 ...

0 0 0 2025/09/04 arXiv:2401.04394v3 yanghedada

Read, Watch and Scream! Sound Generation from Text and Video

尽管多模式生成模型取得了令人印象深刻的进展，但视频与审计的生成仍然遭受有限的性能，并限制了灵活性，以优先考虑场景中特定对象的声音综合。相反，文本到原告的生成方法产生了高质量的音频，但在确保场景描绘和随时间变化的控制方面构成了挑战。为了应对这些挑战，我们提出了一种新颖的视频和文本对审计生成方法，称为\ outs，视频可作为文本到审计生成模型的有条件控制 ...

0 0 0 2025/09/04 arXiv:2407.05551v2 yanghedada

The Power of Sound (TPoS): Audio Reactive Video Generation with Stable Diffusion

近年来，视频生成已成为一种著名的生成工具，并引起了极大的关注。但是，尽管音频具有时间语义和幅度等独特的品质，但音频到视频的一代几乎没有考虑。因此，我们提出了声音（TPOS）模型的功能，以结合包括可变的时间语义和幅度的音频输入 ...

0 0 0 2025/09/04 arXiv:2309.04509v1 yanghedada

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）