- 名称
- End-to-end Dense Video Captioning as Sequence Generation
- 描述
密集的视频字幕旨在确定输入视频中感兴趣的事件,并为每个事件生成描述性字幕。以前的方法通常遵循两个阶段的生成过程,该过程首先提出了每个事件的段,然后为每个已确定的细分市场提供标题。大规模序列产生预处理的最新进展在统一各种任务的任务制定方面取得了巨大的成功,但是到目前为止,更复杂的任务(例如密集的视频字幕)无法完全利用这种强大的范式 ...
密集的视频字幕旨在确定输入视频中感兴趣的事件,并为每个事件生成描述性字幕。以前的方法通常遵循两个阶段的生成过程,该过程首先提出了每个事件的段,然后为每个已确定的细分市场提供标题。大规模序列产生预处理的最新进展在统一各种任务的任务制定方面取得了巨大的成功,但是到目前为止,更复杂的任务(例如密集的视频字幕)无法完全利用这种强大的范式 ...