arxiv End-to-End Dense Video Captioning with Parallel Decoding

名称
End-to-End Dense Video Captioning with Parallel Decoding
首页
https://yiyibooks.cn/arxiv/2108.07781v2/index.html
原始地址
https://arxiv.org/abs/2108.07781
描述
密集的视频字幕旨在与视频中的时间位置生成多个相关的字幕。以前的方法遵循一个复杂的“本地化”方案,该方案在很大程度上依赖于许多手工制作的组件。在本文中,我们提出了一个简单而有效的框架,用于通过将密集的字幕生成作为设定的预测任务,对并行解码(PDVC)进行端到端密集的视频字幕(PDVC) ...