arxiv LLaVA-OneVision: Easy Visual Task Transfer

名称
LLaVA-OneVision: Easy Visual Task Transfer
首页
https://yiyibooks.cn/arxiv/2408.03326v3/index.html
原始地址
https://arxiv.org/pdf/2408.03326
描述
我们推出了 LLaVA-OneVision,这是一个开放式大型多模态模型 (LMM) 系列,通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明,LLaVA-OneVision 是第一个能够在三个重要计算机视觉场景(单图像、多图像和视频场景)中同时突破开放式 LMM 性能极限的单一模型。重要的是,LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习,从而产生新的能力。特别是,通过从图像到视频的任务转移,展示了强大的视频理解和跨场景能力 ...