密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...

0 0 0 0 2025/03/13 arXiv:2108.07781v2 argbunint256

视频段落字幕旨在生成一个未修剪视频的多句子描述,其中有几个时间事件位置在连贯的讲故事中。遵循人类的感知过程,通过将场景分解为视觉,可以有效地理解场景(例如 ...

0 0 0 0 2025/03/07 arXiv:2211.15103v2 argbunint256

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)