argbunint256的文档

ChatVTG: Video Temporal Grounding via Chat with Video Dialogue Large Language Models

视频时间接地 (VTG) 旨在将未修剪视频中与给定自然语言查询相对应的特定片段接地。现有的 VTG 方法在很大程度上依赖于监督学习和大量注释数据，这是劳动密集型的并且容易出现人为偏差。为了应对这些挑战，我们提出了 ChatVTG，这是一种利用视频对话大语言模型 (LLM) 进行零镜头视频时间基础的新颖方法。我们的 ChatVTG 利用视频对话 LLM 生成多粒度片段字幕，并将这些字幕与给定的查询进行匹配以实现粗略的时间基础，从而避免了配对注释数据的需要。此外，为了获得更精确的时间基础结果，我们对细粒度的字幕提案采用矩细化。在 Charades-STA、ActivityNet-Captions 和 TACoS 等三个主流 VTG 数据集上进行的大量实验证明了 ChatVTG 的有效性。我们的 ChatVTG 超越了当前零样本方法的性能 ...

0 0 0 0 2025/12/19 arXiv:2410.12813v1 argbunint256

What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions

时空基础描述了仅基于口头描述在空间和时间（例如在视频数据中）定位事件的任务。此任务的模型通常使用人工注释的句子和边界框监督进行训练。这项工作从多模态监督的角度解决了这一任务，提出了一个仅在松散视频和字幕监督上训练的时空动作基础框架，无需人工注释。为此，我们将专注于利用细粒度空间信息的局部表示学习与捕获更高级别表示并将两者合并到联合方法中的全局表示编码相结合。为了在现实生活中评估这一具有挑战性的任务，提出了一个新的基准数据集，在超过 5K 事件的长的、未修剪的多动作教学视频中提供密集的时空基础注释。我们在建议的和标准的下游任务上评估了所提出的方法和其他方法，表明我们的方法在各种设置（包括空间、时间和未修剪的多动作时空基础）下比当前基线有所改进 ...

0 0 0 0 2025/12/16 arXiv:2303.16990v2 argbunint256

EtC: Temporal Boundary Expand then Clarify for Weakly Supervised Video Grounding with Multimodal Large Language Model

由于缺乏时间边界注释，早期的弱监督视频接地（WSVG）方法经常遇到不完整的边界检测问题。为了弥合视频级和边界级注释之间的差距，显式监督方法（即生成用于训练的伪时间边界）取得了巨大成功。然而，这些方法中的数据增强可能会破坏关键的时间信息，产生不良的伪边界。在本文中，我们提出了一种新的视角，保持原始时间内容的完整性，同时引入更多有价值的信息来扩展不完整的边界。为此，我们提出EtC（Expand then Clarify），首先使用附加信息来扩展初始不完整的伪边界，然后细化这些扩展的伪边界以实现精确的边界。受视频连续性（即相邻帧之间的视觉相似性）的推动，我们使用强大的多模态大语言模型（MLLM）来注释初始伪边界内的每个帧，从而为扩展边界提供更全面的描述。为了进一步澄清扩展边界的噪音，我们将相互学习与定制的提案级对比目标结合起来，使用可学习的方法来协调不完整但干净（初始）和全面但有噪音（扩展）边界之间的平衡，以获得更精确的边界。实验证明了我们的方法在两个具有挑战性的 WSVG 数据集上的优越性 ...

0 0 0 0 2025/12/16 arXiv:2312.02483v2 argbunint256

Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining

弱监督时间句子基础（WSTSG）的任务旨在从仅具有视频级视频语言对应关系的未修剪视频中检测与语言描述相对应的时间间隔。对于锚样本，大多数现有方法从其他视频或同一视频中生成负样本以进行对比学习。然而，有些训练样本与锚样本高度相似，直接将其视为负样本会导致优化困难，并且忽略了这些相似样本与锚样本之间的相关性。为了解决这个问题，我们提出了正样本挖掘（PSM），这是一种从训练集中挖掘正样本以提供更具区分性的监督的新颖框架。具体来说，对于给定的锚样本，我们根据文本查询的相似性将剩余的训练集划分为语义相似和不相似的子集。为了有效地利用这些相关性，我们引入了 PSM 引导的对比损失，以确保锚点提案更接近相似样本，远离不相似样本。此外，我们设计了PSM引导的排名损失，以确保相似的样本比负视频内提案更接近锚点提案，旨在区分锚点提案和负视频内提案。 WSTSG 和基础 VideoQA 任务的实验证明了我们方法的有效性和优越性 ...

0 0 0 0 2025/12/16 arXiv:2505.06557v1 argbunint256

Gaussian Mixture Proposals with Pull-Push Learning Scheme to Capture Diverse Events for Weakly Supervised Temporal Video Grounding

在弱监督时间视频基础研究中，以前的方法使用预定的单个高斯提案，其缺乏表达句子查询所描述的不同事件的能力。为了增强提案的表达能力，我们提出了一种高斯混合提案（GMP），它可以通过学习混合物中每个高斯的重要性、质心和范围来描绘任意形状。在学习 GMP 时，每个高斯不是在特征空间中训练，而是在时间位置上实现。因此，传统的基于特征的高斯混合模型学习对于我们的情况无效。在我们的特殊设置中，为了学习捕获不同事件的适度耦合高斯混合，我们新提出了一种使用拉动和推动损失的拉推学习方案，其中每个损失都扮演着相反的角色。我们方案中组件的效果通过广泛的消融研究进行了深入验证，整体方案实现了最先进的性能。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2025/12/09 arXiv:2312.16388v1 argbunint256

D3G: Exploring Gaussian Prior for Temporal Sentence Grounding with Glance Annotation

时间句子基础（TSG）旨在使用给定的自然语言查询从未经修剪的视频中定位特定时刻。最近，弱监督方法与完全监督方法相比仍然存在很大的性能差距，而后者需要费力的时间戳注释。在本研究中，我们的目标是降低注释成本，同时保持 TSG 任务与完全监督任务相比的竞争性能。为了实现这一目标，我们研究了最近提出的扫视监督时间句子基础任务，该任务仅需要每个查询的单帧注释（称为扫视注释）。在此设置下，我们提出了一种基于动态高斯先验的带有概览注释的接地框架（D3G），该框架由语义对齐组对比学习模块（SA-GCL）和动态高斯先验调整模块（DGA）组成。具体来说，SA-GCL 通过联合利用高斯先验和语义一致性，从 2D 时间图中采样可靠的正矩，这有助于在联合嵌入空间中对齐正句子矩对。此外，为了减轻扫视注释和建模由多个事件组成的复杂查询所产生的注释偏差，我们提出了 DGA 模块，该模块动态调整分布以近似目标矩的基本事实。在三个具有挑战性的基准上进行的大量实验验证了所提出的 D3G 的有效性。它大大优于最先进的弱监督方法，并缩小了与完全监督方法相比的性能差距。代码可从此 https URL 获取 ...

0 0 0 0 2025/12/09 arXiv:2308.04197v1 argbunint256

Learning to Locate Visual Answer in Video Corpus Using Question

我们引入了一项新任务，名为视频语料库视觉答案定位（VCVAL），其目的是使用自然语言问题在大量未经修剪的教学视频中定位视觉答案。这项任务需要一系列技能——视觉和语言之间的交互、视频检索、段落理解和视觉答案定位。在本文中，我们提出了一种用于 VCVAL 的跨模态对比全局跨度（CCGS）方法，利用全局跨度矩阵联合训练视频语料库检索和视觉答案定位子任务。我们重建了一个名为 MedVidCQA 的数据集，在该数据集上对 VCVAL 任务进行了基准测试。实验结果表明，该方法在视频语料库检索和视觉答案定位子任务方面均优于其他竞争方法。最重要的是，我们对大量的实验进行了详细的分析，为理解教学视频铺平了新的道路，从而迎来了进一步的研究 ...

0 0 0 0 2025/12/02 arXiv:2210.05423v4 argbunint256

Explicit Temporal-Semantic Modeling for Dense Video Captioning via Context-Aware Cross-Modal Interaction

密集视频字幕联合定位未修剪视频中的显着事件并为其添加字幕。最近的方法主要侧重于利用额外的先验知识和先进的多任务架构来实现有竞争力的性能。然而，这些管道依赖于使用帧级或碎片视频特征的隐式建模，无法捕获事件序列之间的时间连贯性和视觉上下文中的综合语义。为了解决这个问题，我们提出了一种称为上下文感知跨模态交互（CACMI）的显式时间语义建模框架，它利用视频中的潜在时间特征和文本语料库中的语言语义。具体来说，我们的模型由两个核心组件组成：跨模态帧聚合聚合相关帧，以通过跨模态检索提取时间连贯、事件对齐的文本特征；上下文感知功能增强利用查询引导的注意力将视觉动态与伪事件语义相集成。在 ActivityNet Captions 和 YouCook2 数据集上进行的大量实验表明，CACMI 在密集视频字幕任务上实现了最先进的性能 ...

0 0 0 0 2025/11/27 arXiv:2511.10134v1 argbunint256

Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols

未经修剪的视频具有相互关联的事件、依赖关系、上下文、重叠事件、对象与对象交互、领域特异性以及其他在用自然语言描述视频时值得强调的语义。由于多样性如此之大，单个句子只能正确描述视频的一部分。密集视频字幕 (DVC) 旨在检测和描述给定视频中的不同事件。 DVC 一词起源于 2017 年的 ActivityNet 挑战赛，此后人们为应对该挑战做出了相当大的努力。密集视频字幕分为三个子任务：(1) 视频特征提取 (VFE)、(2) 时间事件定位 (TEL) 和 (3) 密集字幕生成 (DCG)。本综述旨在讨论所有声称执行 DVC 及其子任务的研究，并总结其结果。我们还讨论了用于 DVC 的所有数据集。最后，我们强调该领域的一些新挑战和未来趋势 ...

0 0 0 0 2025/11/26 arXiv:2311.02538v1 argbunint256

BAM-DETR: Boundary-Aligned Moment Detection Transformer for Temporal Sentence Grounding in Videos

时间句子基础旨在定位与语言描述相关的时刻。最近，类似 DETR 的方法通过预测目标时刻的中心和长度取得了显着进展。然而，它们面临着由于矩中心固有的模糊性而引起的中心错位问题，导致预测不准确。为了解决这个问题，我们提出了一种新颖的面向边界的矩公式。在我们的范式中，模型不再需要找到精确的中心，而是足以预测区间内的任何锚点，从中直接估计边界。基于这个想法，我们设计了一个边界对齐的力矩检测 Transformer ，配备了双路径解码过程。具体来说，它分别使用全局和边界关注来细化并行路径内的锚点和边界。这种单独的设计使模型能够专注于所需的区域，从而能够精确细化力矩预测。此外，我们提出了一种基于质量的排名方法，确保具有高本地化质量的提案优先于不完整的提案。三个基准的实验验证了所提出方法的有效性。该代码可从此 https URL 获取 ...

0 0 0 0 2025/11/06 arXiv:2312.00083v2 argbunint256