基本信息 - LLaVA-OneVision: Easy Visual Task Transfer

arxiv LLaVA-OneVision: Easy Visual Task Transfer

Star 0

阅读

名称: LLaVA-OneVision: Easy Visual Task Transfer

首页: https://yiyibooks.cn/arxiv/2408.03326v3/index.html

原始地址: https://arxiv.org/pdf/2408.03326

描述

我们推出了 LLaVA-OneVision，这是一个开放式大型多模态模型 (LMM) 系列，通过整合我们对 LLaVA-NeXT 博客系列中的数据、模型和视觉表示的见解而开发。我们的实验结果表明，LLaVA-OneVision 是第一个能够在三个重要计算机视觉场景（单图像、多图像和视频场景）中同时突破开放式 LMM 性能极限的单一模型。重要的是，LLaVA-OneVision 的设计允许跨不同模式/场景进行强大的迁移学习，从而产生新的能力。特别是，通过从图像到视频的任务转移，展示了强大的视频理解和跨场景能力 ...

文件上传进度

0%

上传成功 0 个文件