一个通信视频字幕的理想模型 - 预测视频中暂时性的字幕 - 应该能够处理长输入视频,预测丰富的,详细的文本描述,并在处理整个视频之前产生输出。但是,当前的最新模型会处理固定数量的下采样框架,并在观看整个视频后做出一个完整的预测。我们提出了一个由两个新颖组成部分组成的流式密集的视频字幕模型:首先,我们根据聚类传入 Token 提出了一个新的内存模块,该模块可以处理任意长的视频,因为内存的尺寸为固定尺寸 ...

0 0 0 0 2025/03/13 arXiv:2404.01297v1 argbunint256

密集的视频字幕旨在确定输入视频中感兴趣的事件,并为每个事件生成描述性字幕。以前的方法通常遵循两个阶段的生成过程,该过程首先提出了每个事件的段,然后为每个已确定的细分市场提供标题。大规模序列产生预处理的最新进展在统一各种任务的任务制定方面取得了巨大的成功,但是到目前为止,更复杂的任务(例如密集的视频字幕)无法完全利用这种强大的范式 ...

0 0 0 0 2025/03/13 arXiv:2204.08121v2 argbunint256

密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...

0 0 0 0 2025/03/13 arXiv:2108.07781v2 argbunint256

视频段落字幕旨在生成一个未修剪视频的多句子描述,其中有几个时间事件位置在连贯的讲故事中。遵循人类的感知过程,通过将场景分解为视觉,可以有效地理解场景(例如 ...

0 0 0 0 2025/03/07 arXiv:2211.15103v2 argbunint256

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)