基本信息 - ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

arxiv ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

阅读

Star 0

名称: ALLaVA: Harnessing GPT4V-synthesized Data for A Lite Vision-Language Model

首页: https://yiyibooks.cn/arxiv/2402.11684v1/index.html

原始地址: https://arxiv.org/abs/2402.11684

描述

大型视觉语言模型 (LVLM) 的最新进展使得能够在语言模型中处理多模式输入，但需要大量的计算资源进行部署，尤其是在边缘设备中。本研究旨在通过采用高质量的训练数据来缩小传统规模的 LVLM 和资源友好型精简版之间的性能差距。为此，我们利用 GPT-4V 生成详细说明、复杂推理指令和图像详细答案的能力来创建合成数据集 ...