基本信息 - Learning Video Representations from Large Language Models

arxiv Learning Video Representations from Large Language Models

阅读

Star 0

名称: Learning Video Representations from Large Language Models

首页: https://yiyibooks.cn/arxiv/2212.04501v1/index.html

原始地址: https://arxiv.org/abs/2212.04501

描述

我们推出 LaViLa，这是一种利用大型语言模型 (LLM) 学习视频语言表示的新方法。我们重新利用预先训练的 LLM 以视觉输入为条件，并对它们进行微调以创建自动视频旁白。我们自动生成的旁白具有许多优势，包括长视频的密集覆盖、视觉信息和文本更好的时间同步以及更高的文本多样性 ...