- 名称
- End-to-End Dense Video Captioning with Parallel Decoding
- 描述
密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...
密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...