lk-aa的文档

lk-aa

lk-aa

个性签名 ...

Learning Video Representations from Large Language Models

我们推出 LaViLa，这是一种利用大型语言模型 (LLM) 学习视频语言表示的新方法。我们重新利用预先训练的 LLM 以视觉输入为条件，并对它们进行微调以创建自动视频旁白。我们自动生成的旁白具有许多优势，包括长视频的密集覆盖、视觉信息和文本更好的时间同步以及更高的文本多样性 ...

0 0 0 0 2024/04/26 arXiv:2212.04501v1 lk-aa

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）