argbunint256的文档

Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos

我们提出了一个新颖的基准测试，用于跨视图的知识转移密集的视频字幕，从Web教学视频中调整模型，并以自以于中心的视角为中心的视图。尽管密集的视频字幕（预测时间段及其字幕）主要使用exentric视频（例如， ...

0 0 0 0 2025/09/10 arXiv:2311.16444v4 argbunint256

PR-DETR: Injecting Position and Relation Prior for Dense Video Captioning

密集的视频字幕是一项具有挑战性的任务，旨在在未修饰的视频中本地化和标题多个事件。最近的研究主要遵循基于 Transformer 的体系结构，共同执行两个子任务，即 ...

0 0 0 0 2025/08/06 arXiv:2506.16082v1 argbunint256

Mr. DETR++: Instructive Multi-Route Training for Detection Transformers with Mixture-of-Experts

现有方法通过合并辅助一对多的分配来增强检测 Transformer 的训练。在这项工作中，我们将模型视为一个多任务框架，同时执行一对一和一对一的预测。我们研究了在这两个训练目标中，每个组件在 Transformer 解码器中的作用，包括自我注意力，交叉注意力和前馈网络 ...

0 0 0 0 2025/07/14 arXiv:2412.10028v4 argbunint256

Believing is Seeing: Unobserved Object Detection using Generative Models

可以检测到图像中不可见但在相机附近不可见的对象吗？这项研究介绍了2D，2.5D和3D未观察到的对象检测的新任务，以预测附近物体的位置被遮挡或位于图像框架之外。我们调整了几个最先进的预训练的生成模型来解决此任务，包括2D和3D扩散模型和视觉模型，并证明它们可用于推断未直接观察到的对象的存在 ...

0 0 0 0 2025/07/14 arXiv:2410.05869v4 argbunint256

Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning

弱监督的密集视频字幕（WSDVC）旨在本地化和描述视频中所有感兴趣的事件，而无需对事件界限进行注释。由于无法获得相关的监督，因此该设置在准确定位事件的时间位置方面构成了巨大的挑战。现有方法依赖于事件位置和字幕之间的明确一致性约束，这涉及培训和推理期间复杂的事件建议程序 ...

0 0 0 0 2025/06/27 arXiv:2412.12791v2 argbunint256

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation

我们日常生活中有丰富的同步音频和视觉事件。在事件中，音频场景与相应的视觉对象相关联；同时，发声对象可以指示并帮助在音轨中分离其单个声音。基于这一观察结果，在本文中，我们提出了一个循环共学习（CCOL）范式，该范式可以在统一的框架中共同学习声音的视觉接地和视听声音分离 ...

0 0 0 0 2025/06/03 arXiv:2104.02026v1 argbunint256

Multi-modal Dense Video Captioning

密集的视频字幕是从未修剪视频中本地化有趣事件的任务，并为每个本地化事件制作文本描述（字幕）。密集的视频字幕上的大多数作品仅基于视觉信息，并且完全忽略了音轨。但是，尤其是音频和言语是人类观察者在理解环境方面的重要提示 ...

0 0 0 0 2025/05/08 arXiv:2003.07758v2 argbunint256

VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning

尽管在各种任务中取得了大型语言模型（视频）的进步，但它们在诸如密集的视频字幕（DVC）之类的详细时间理解中挣扎。 DVC是描述视频中的所有事件的一项复杂的任务，同时还将其定位，该任务集成了多个细粒度的任务，包括视频细分，视频字幕和时间视频接地。以前的Videolms尝试单个步骤求解DVC，但未能利用其推理能力 ...

0 0 0 0 2025/05/06 arXiv:2501.06761v1 argbunint256

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

我们提出CAT-V（视频中的标题上的任何内容），这是一个无训练的框架，用于以细粒度为中心的视频字幕，可以详细描述用户选择的对象。 CAT-V集成了三个关键组件：基于武士的细分器，用于跨帧的精确对象分割，由Trace-Uni供电的临时分析仪用于准确的事件边界检测和时间分析，以及使用Internvl-2.5的字幕仪，用于生成详细的对象以对象为中心的描述 ...

0 0 0 0 2025/04/25 arXiv:2504.05541v2 argbunint256

Caption Anything: Interactive Image Description with Diverse Multimodal Controls

可控的图像字幕是一个新兴的多模式主题，旨在用人类目的以自然语言描述图像，$ \ textit {e.g。} $，查看指定区域或以特定的文本样式讲述 ...

0 0 0 0 2025/04/25 arXiv:2305.02677v3 argbunint256