MMT-Bench:用于评估面向多任务 AGI 的大型视觉语言模型的综合多模态基准
大型视觉语言模型 (LVLM) 在视觉对话和实体导航等通用多模式应用中显示出显着的进步。 然而,现有的多模态评估基准涵盖了有限数量的测试基本能力的多模态任务,在跟踪 LVLM 开发方面存在不足。 在这项研究中,我们提出了 MMT-Bench,这是一个综合基准,旨在评估需要专业知识和深思熟虑的视觉识别、定位、推理和规划的大规模多模态任务中的 LVLM。 MMT-Bench 包含精心策划的来自各种多模式场景(例如车辆驾驶和具体导航)的多选视觉问题,涵盖核心元任务和多模态理解中的子任务。 由于其广泛的任务覆盖范围,MMT-Bench 可以使用任务图来评估 LVLM,从而促进域内和域外任务的发现。 涉及 LVLM(例如专有的 GPT-4V、GeminiProVision 和开源 InternVL-Chat)的评估结果强调了 MMT-Bench 带来的重大挑战。 我们预计 MMT-Bench 将激励社区开发下一代多模态基础模型,旨在实现通用多模态智能。
近年来,大视觉语言模型(LVLM)(Zhang 等人,2023a;Yang 等人,2023a;Liu 等人,2023b)已成为推进人工智能的强大工具,展示了显着的成果在视觉对话、视频分析和文档理解等各个领域取得进展。 在各个领域挖掘的多样化、高质量的指令微调数据的驱动下,LVLM 将继续向多任务 AGI 迈进(Team,2023a;Bai 等人,2023)。 正如《AGI的等级》(Morris等人,2023)中指出的,任务的广度(通用性)是不同等级AGI的基本标准。 多任务 AGI 模型可以像人类一样熟练地执行跨不同领域的广泛任务,这可能会彻底改变个性化教育(Latif 等人,2023)和医疗诊断( Singhal 等人,2023)。 因此,建立一个全面的评估基准来跟踪多任务AGI的发展至关重要。
然而,LVLM 的评估明显滞后于其发展(Morris 等人,2023;Yue 等人,2023b;Liu 等人,2024b)。 一系列工作试图通过提出各种多模式评估基准来弥补这一差距。 例如 LVLM-eHub (徐等人, 2023)、MMBench (刘等人, 2023c)、MME (傅等人, 2023) 和 SEED-Bench (Li 等人, 2023a),提出了多模态能力的维度和相应的测试样本。 然而,这些基准测试在测试视觉识别和文本稀缺 OCR 等基本功能时,对多模式任务的覆盖范围有限。 因此,他们无法满足任务广度的要求(Morris等人,2023)。 此外,最近的 LVLM 在这些基准测试中继续表现出色。 例如,InternLM-XComposer2 (Dong 等人, 2024) 实现了 / 和 / 分别在 MME 和 MMBench 上的整体性能。 其他作品,如MathVista (Lu 等人, 2023)和MMMU (Yue 等人, 2023a),侧重于学科知识理解和推理,但仅限于视觉问题科学图表图像,限制了它们对多任务 AGI 进行基准测试的广度。
为了应对这一挑战,我们引入了 MMT-Bench,这是一个新的基准,旨在全面评估 LVLM 在多模态多任务理解方面的能力。 MMT-Bench 的广度体现在三个方面。 首先,MMT-Bench 经过精心策划,包含 K 个多项选择视觉问题,涵盖 核心元任务和总共 子任务(图 1)。 1),比MM-Bench (Liu等人,2023c)大倍。 其次,它涵盖图像类型,例如自然场景、合成图像、深度图、富含文本的图像、绘画、屏幕截图、点云、医学图像等(图2)。 这种多样性要求模型有足够的能力来解释各种视觉输入。 第三,MMT-Bench跨越车辆驾驶、GUI导航、嵌入式AI等多模态场景,测试种多模态能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解、等人(图2)。
我们在各种输入模式下评估公开可用的 LVLM,以获得最佳评估性能。 我们的研究结果凸显了 MMT-Bench 带来的重大挑战。 例如,GPT-4V 在除视觉识别之外的所有子任务和子任务中仅获得 / 和 / 总分分别表明多任务 AGI 的改进空间很大。 由于多模态任务的广泛覆盖,MMT-Bench 能够使用任务图来评估 LVLM。 这有助于发现域内和域外任务,为多模式商业应用和增强 LVLM 的持续努力提供有价值的见解。 我们将调查结果总结如下:
Benchmark | Data Collection | |||||
# Sample | # Meta-task | # Task | # Modality | Source | Answer Type | |
SEED-Bench (Li et al., 2023a) | 19K | 12 | 12 | I + T + V | Annotated | Multi-Choice |
MMBench (Liu et al., 2023c) | 3K | 2 | 20 | I + T | Repurposed | Multi-Choice |
MM-VET (Yu et al., 2023) | 0.2K | 6 | N/A | I + T | Repurposed | Multi-Choice |
MMMU (Yue et al., 2023b) | 11.5K | 6 | 30 | I + T | Annotated | Multi-Choice/Open |
Tiny LVLM-eHub (Shao et al., 2023) | 2.1K | 5 | 42 | I + T | Repurposed | Multi-Choice/Open |
MMT-Bench | 31K | 32 | 162 | I + T + V + P | Repurposed | Multi-Choice |
对 多模态任务进行的全面错误分析表明,表现最好的 LVLM(例如 InternVL-chat、GPT4V 和 GeminiProVision)主要容易出现感知、推理和知识错误。
分类分析表明,当前的 LVLM 在与视觉识别和描述相关的域内任务中表现良好,但在与定位和像素感知相关的域外任务中表现不佳。
不进行指令调优的 BLIP2 甚至优于大多数由数百万指令跟踪数据调优的 LVLM,这意味着在某些任务中使用数据进行指令调优甚至会损害其他任务的泛化。
某些任务通过特定的提示方法表现出改进的性能,例如多图像和坐标相关的任务,以及涉及视觉参考提示的任务。 然而,大多数模型并没有通过视觉提示表现出改进的性能,这表明了未来增强的潜在领域。
LLaVA-v1.5 和 LLaVA-v1.5-Xtuner 的模型性能随着大小(7B 至 13B)的增加而显着提高。 将大语言模型从InternLM升级到InternLM2,也增强了LLaVA的性能。
总的来说,这项工作的贡献有三方面。 i) 我们为多模式多任务理解建立了一个名为 MMT-Bench 的新评估基准,使我们能够衡量多任务 AGI 道路上的进展。 ii) 我们在 MMT-Bench 上评估了各种公开可用的 LVLM,发现当前的 LVLM(包括 InternVL-Chat、GPT-4V 和 GeminiProVision)在多任务智能方面实现了普通的性能。 iii) 我们通过在基于 MMT-Bench 构建的任务图上评估 LVLM 来进行任务分析,从而促进相对于当前 LVLM 的域内和域外任务的发现。 我们预计 MMT-Bench 将激励社区突破 LVLM 研究和开发的界限,推动我们更接近实现真正的智能多模式系统。 MMT-Bench 在 上开源。
LVLM。 随着大语言模型不断取得令人瞩目的成就(Bai 等人,2023;Team,2023b;Touvron 等人,2023a, b;Zheng 等人,2023;Chung 等人,2022),学术重点越来越转向大型视觉语言模型(LVLM)的探索和开发,以增强模型的多模态理解和生成能力。 一些著名的开源 LVLM,例如 mPLUG-Owl2 (Ye 等人, 2023b)、LLaVA (Liu 等人, 2023b) 和 LLaMA-Adapter (高等人,2023;张等人,2023b)以大语言模型为骨干,通过大语言模型处理视觉特征,最终实现文本与视觉的创新融合。 此外,Gemini (Team,2023a)和GPT-4V (Yang等人,2023b)等闭源模型在众多任务中表现出了显着的成果,做出了开创性的贡献。 我们的目标是通过在大规模多模态任务上测试 LVLM 及其功能,对它们进行深入、全面的探索。
LVLM评估。 最近,LVLM 在处理许多视觉语言任务方面表现出了卓越的能力,这使得之前的单任务基准测试(Antol 等人,2015;Hudson & Manning,2019;Krishna 等人,2017;Lin 等人,2014; Marino 等人, 2019) 不足以对当前 LVLM 进行综合评估。 为此,当前的LVLM评估基准旨在对LVLM的整体推理能力提供相对全面的评估,例如OwlEval (Ye 等人, 2023a)、LVLM-eHub (Xu 等人) , 2023), SEED-Bench (李等人, 2023a), LAMM (尹等人, 2023), MM-Vet (Yu等人, 2023) 和 MMBench (刘等人, 2023c)。 然而,这些基准仅涵盖小范围的多模式任务和视觉语言技能,使得它们不够全面,无法评估多任务 AGI 能力。 此外,最近的研究还提出了需要专家级领域知识的 LVLM 基准,例如 Mathvista (Lu 等人, 2023) 和 MMMU (Yue 等人, 2023a) 。 相比之下,我们提出的 MMT-Bench 涵盖了广泛的多模态推理能力,具有来自各种模态的足够测试样本,如表 1 所示,这需要专业知识和深思熟虑的视觉识别、定位、推理和规划。 我们的 MMT-Bench 对当前最先进的 LVLM 提出了重大挑战。
多任务分析。 表征各种任务并建立任务间关系是多任务分析的有效手段(Ilharco 等人, 2023; Achille 等人, 2019; Zamir 等人, 2018; Wallace 等人, 2021),其中在元学习和迁移学习等领域有着广泛的应用。 Taskonomy (Zamir 等人,2018) 中进行了大量研究。 它利用迁移学习对视觉任务空间的结构进行建模,从而利用视觉任务之间的互连来避免学习中的冗余。 Task2Vec (Achille 等人, 2019) 将渔民信息提取为任务向量,用于元学习。 在我们的论文中,由于收集了大量的任务数据,我们在任务图上评估了 LVLM,并得出了当前 LVLM 具有挑战性的任务。
3 MMT-长凳
分层任务结构。 我们利用分层结构来包含尽可能多的多模式任务来构建 MMT-Bench。 首先,所有合著者通过头脑风暴提出了多模式理解的元任务。 然后,我们通过重复数据删除和过滤重要任务来收集元任务,如图1所示。 其次,我们将每个元任务分解为多个子任务。 子任务按照三个标准保留在 MMT-Bench 中。 i) 子任务是否考察基本的多模式能力。 ii) 子任务是否挑战当前的 LVLM。 iii) 子任务的测试样本是否可以公开访问。 选择后,MMT-Bench包含个子任务,比之前包含最多任务的TinyLVLM-eHub大倍(Shao等人,2023). 表 1 提供了 MMT-Bench 与之前基准测试的详细比较。 我们还在附录的表A2中展示了整个层次结构。
数据集搜索。 我们根据子任务的名称,使用 Google、Paper With Code、Kaggle 和 ChatGPT 等各种来源对相关数据集进行全面搜索。 下载数据集后,我们仔细评估它们是否适合评估子任务,确保可用性和相关性。 虽然大多数任务都有多个可用数据集,但少数任务可能只有一个可公开访问的数据集。
元数据构建。 我们定义一个统一的格式,即元数据,来整理下载的数据集。 它能够进一步生成视觉问题和答案。 每个元数据样本都由图像和元信息组成。 元信息(见图2)包括生成评估问题和答案所需的信息,还包括所需能力的手动注释和视觉提示的类型(即输入图像)。 为了评估效率,在每个任务中,我们通过随机采样将最大样本数保持在200,并且每个数据集包含相同数量的样本。
问答生成。 对于每个子任务,我们都会生成多项选择(根据任务最多有八个选择)视觉问题以及来自元数据的选择和答案。 具体来说,根据具体任务,我们手动设计规则或使用ChatGPT配合精心设计的提示来实现高效、高质量的生成。 例如,在 sketch2image 检索中,我们使用相应的图像作为真实答案,并通过从元数据中随机采样其他图像来生成其他选择。 在视频字幕中,我们使用 ChatGPT 来编写令人困惑的错误选择。
数据集统计。 MMT-Bench 包含 精心策划的多项选择问题,以及 输入图像类型,例如自然场景、合成图像、富含文本的图像、医学图像等(见图 1)。 2),涵盖用于多任务多模式理解的核心元任务和子任务。 与之前解决有限图像类型和技能的 LVLM 基准(Yue 等人,2023a;Xu 等人,2023)相比,MMT-Bench 中的问题跨越了多种多模态场景,例如 GUI 导航和文档理解、测试种能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解等,如图2所示。 这些功能确保 MMT-Bench 满足评估多任务 AGI 的任务广度要求。
Model | Overall | VR | Loc | OCR | Count | HLN | IR | 3D | VC | VG | DU | AR | PLP | I2IT | RR | IQT | Emo | |
Overall∗ | VI | MemU | VPU | AND | KD | VCR | IEJ | MIA | CIM | TU | VP | MedU | AUD | DKR | EA | GN | ||
Frequency Guess | 31.7 | 26.1 | 30.0 | 28.2 | 30.4 | 28.2 | 43.4 | 29.9 | 26.5 | 28.2 | 29.1 | 37.6 | 30.0 | 29.4 | 30.8 | 33.5 | 18.0 | 30.1 |
32.2 | 25.9 | 52.1 | 32.8 | 29.3 | 44.4 | 33.7 | 27.0 | 30.0 | 46.5 | 28.5 | 29.1 | 29.5 | 30.9 | 29.7 | 29.4 | 28.0 | 29.0 | |
Random Guess | 28.5 | 30.0 | 27.1 | 28.1 | 27.2 | 25.0 | 41.6 | 24.3 | 25.5 | 25.0 | 24.8 | 30.3 | 25.4 | 26.6 | 21.2 | 33.4 | 10.5 | 25.4 |
28.9 | 29.9 | 50.8 | 25.5 | 31.4 | 36.5 | 32.2 | 28.0 | 25.0 | 48.5 | 26.8 | 27.0 | 28.8 | 27.8 | 26.8 | 25.4 | 27.5 | 24.4 | |
InternVL-Chat-v1.2-34B | 63.4 | 5.7 | 81.3 | 59.4 | 60.5 | 66.4 | 82.4 | 56.3 | 45.5 | 82.3 | 49.4 | 68.3 | 52.6 | 37.4 | 32.8 | 55.0 | 84.0 | 48.7 |
58.2 | 5.7 | 61.5 | 62.5 | 58.2 | 57.0 | 62.2 | 76.0 | 31.0 | 82.8 | 56.8 | 45.2 | 41.8 | 71.8 | 57.8 | 49.4 | 74.5 | 41.2 | |
Qwen-VL-Plus | 62.3 | 6.7 | 82.6 | 55.3 | 65.6 | 61.1 | 69.9 | 40.7 | 46.5 | 86.5 | 43.6 | 77.3 | 53.4 | 43.1 | 37.8 | 53.0 | 84.5 | 41.6 |
56.6 | 6.8 | 50.3 | 61.0 | 67.5 | 58.8 | 55.3 | 76.5 | 31.8 | 81.5 | 61.3 | 45.5 | 33.7 | 73.3 | 59.5 | 46.8 | 85.0 | 32.6 | |
GPT-4V | 62.0 | 8.3 | 85.3 | 55.6 | 68.0 | 51.6 | 69.6 | 44.9 | 42.0 | 80.3 | 25.0 | 69.8 | 47.7 | 48.2 | 31.8 | 52.5 | 80.0 | 45.1 |
55.5 | 8.6 | 47.9 | 61.0 | 60.2 | 51.4 | 53.6 | 73.0 | 43.4 | 70.2 | 55.2 | 44.6 | 53.3 | 74.0 | 55.6 | 53.4 | 80.9 | 39.7 | |
GeminiProVision | 61.6 | 8.3 | 84.7 | 43.6 | 59.5 | 56.4 | 65.9 | 68.4 | 45.2 | 80.1 | 33.0 | 71.6 | 57.4 | 40.3 | 31.5 | 58.5 | 11.0 | 55.2 |
55.1 | 8.5 | 47.5 | 75.8 | 50.9 | 47.4 | 49.5 | 86.5 | 35.0 | 70.2 | 33.3 | 40.5 | 46.0 | 82.6 | 59.5 | 49.2 | 74.5 | 33.4 | |
LLaVA-NEXT-34B | 60.8 | 7.5 | 76.7 | 61.0 | 64.1 | 66.3 | 70.1 | 38.8 | 48.5 | 85.9 | 56.2 | 69.1 | 50.6 | 41.9 | 22.8 | 54.9 | 76.5 | 50.3 |
56.3 | 7.5 | 57.8 | 55.5 | 57.2 | 61.2 | 62.7 | 75.0 | 22.2 | 77.8 | 43.0 | 45.4 | 40.2 | 61.9 | 55.1 | 48.1 | 80.0 | 41.4 | |
XComposer2 | 55.7 | 11.7 | 75.3 | 47.9 | 43.9 | 51.0 | 69.5 | 32.4 | 40.5 | 73.7 | 42.6 | 62.0 | 46.3 | 43.9 | 31.5 | 50.5 | 8.0 | 53.6 |
50.0 | 11.7 | 52.6 | 71.2 | 56.1 | 56.2 | 41.5 | 83.0 | 43.8 | 80.8 | 61.2 | 36.6 | 36.3 | 53.5 | 48.8 | 43.8 | 50.5 | 29.4 | |
BLIP2 | 54.8 | 12.8 | 75.1 | 54.1 | 48.1 | 29.8 | 66.1 | 27.4 | 47.8 | 78.7 | 33.5 | 43.0 | 51.1 | 46.1 | 28.2 | 53.0 | 14.0 | 43.1 |
49.1 | 12.8 | 55.6 | 76.2 | 39.8 | 43.7 | 60.2 | 77.0 | 29.8 | 62.8 | 73.0 | 42.7 | 43.2 | 60.1 | 44.6 | 37.0 | 80.5 | 33.4 | |
Yi-VL-34B | 54.2 | 14.3 | 74.6 | 47.0 | 58.0 | 59.4 | 65.8 | 28.8 | 38.8 | 74.0 | 41.5 | 56.4 | 40.4 | 38.4 | 19.5 | 51.7 | 68.5 | 39.7 |
48.6 | 14.3 | 51.3 | 56.2 | 61.2 | 52.4 | 49.5 | 71.5 | 25.5 | 66.0 | 48.0 | 39.2 | 32.0 | 59.6 | 48.2 | 44.3 | 57.0 | 32.4 | |
Monkey-Chat | 53.4 | 15.5 | 79.0 | 40.1 | 51.0 | 43.6 | 63.1 | 26.8 | 46.5 | 68.9 | 27.5 | 51.1 | 49.3 | 32.2 | 29.5 | 61.8 | 11.0 | 45.1 |
46.0 | 15.8 | 55.3 | 69.5 | 43.6 | 44.6 | 36.3 | 85.5 | 26.0 | 58.8 | 61.7 | 36.8 | 33.3 | 68.0 | 43.6 | 38.1 | 46.0 | 29.8 | |
DeepSeek-VL-7B | 53.2 | 15.0 | 75.6 | 42.0 | 61.1 | 44.5 | 60.6 | 30.5 | 47.2 | 69.1 | 38.4 | 51.9 | 44.8 | 38.3 | 23.5 | 48.8 | 37.0 | 43.8 |
46.5 | 15.2 | 47.7 | 59.8 | 53.5 | 45.4 | 41.0 | 41.0 | 38.8 | 35.0 | 67.2 | 33.1 | 30.7 | 69.7 | 48.8 | 36.4 | 67.5 | 36.8 | |
Yi-VL-6B | 53.2 | 14.7 | 73.5 | 49.4 | 53.1 | 56.2 | 63.9 | 26.0 | 43.5 | 63.4 | 42.1 | 55.2 | 43.8 | 35.3 | 26.8 | 48.8 | 47.0 | 46.1 |
47.5 | 14.5 | 55.8 | 54.5 | 49.2 | 53.0 | 51.8 | 65.5 | 34.2 | 52.0 | 43.3 | 37.6 | 37.0 | 60.6 | 46.9 | 40.2 | 48.0 | 34.8 | |
LLaVA-NEXT-13B | 53.0 | 15.0 | 74.0 | 35.6 | 51.8 | 59.2 | 63.6 | 32.7 | 50.0 | 75.0 | 44.6 | 53.6 | 46.5 | 34.0 | 26.2 | 50.0 | 50.0 | 44.5 |
46.8 | 14.9 | 57.5 | 55.0 | 32.2 | 49.6 | 38.9 | 47.0 | 18.0 | 36.5 | 59.8 | 38.9 | 22.5 | 55.8 | 55.7 | 38.5 | 70.0 | 41.0 | |
TransCore-M | 52.7 | 13.1 | 73.6 | 40.5 | 50.4 | 54.5 | 71.9 | 27.5 | 45.0 | 75.6 | 35.1 | 45.3 | 46.9 | 38.3 | 25.0 | 53.2 | 15.0 | 46.3 |
46.9 | 12.9 | 55.6 | 76.8 | 51.9 | 43.7 | 38.6 | 85.5 | 34.2 | 52.8 | 65.8 | 29.7 | 28.8 | 61.1 | 46.5 | 38.4 | 39.5 | 35.6 | |
QWen-VL-Chat | 52.5 | 16.0 | 77.5 | 33.7 | 46.9 | 46.7 | 63.9 | 27.5 | 45.0 | 73.0 | 26.5 | 51.5 | 50.9 | 32.7 | 30.5 | 57.4 | 13.5 | 45.4 |
45.4 | 16.3 | 50.9 | 74.2 | 42.4 | 40.2 | 35.9 | 86.0 | 30.0 | 49.2 | 58.3 | 37.3 | 30.8 | 67.1 | 45.4 | 35.6 | 55.0 | 30.2 | |
Claude3V-Haiku | 52.2 | 17.7 | 74.3 | 44.8 | 54.4 | 51.1 | 63.6 | 34.6 | 38.2 | 67.6 | 26.9 | 69.8 | 46.2 | 35.5 | 22.8 | 50.0 | 59.5 | 35.2 |
46.4 | 17.7 | 42.9 | 53.8 | 43.2 | 41.2 | 53.3 | 70.5 | 31.5 | 34.8 | 52.5 | 35.9 | 34.2 | 62.7 | 34.1 | 40.4 | 54.5 | 35.1 | |
XComposer | 52.1 | 17.1 | 75.4 | 40.4 | 44.1 | 39.9 | 66.5 | 49.7 | 47.0 | 72.1 | 27.2 | 36.6 | 47.9 | 39.6 | 24.5 | 50.2 | 14.0 | 45.9 |
45.6 | 17.3 | 53.4 | 63.8 | 40.6 | 43.4 | 42.3 | 78.0 | 29.0 | 66.2 | 52.3 | 33.1 | 28.3 | 55.6 | 40.8 | 39.3 | 38.5 | 34.2 | |
mPLUG-Owl2 | 52.0 | 17.3 | 76.5 | 45.8 | 44.5 | 47.6 | 63.4 | 27.6 | 45.2 | 66.6 | 33.0 | 42.4 | 45.2 | 41.6 | 25.5 | 52.0 | 18.0 | 42.0 |
45.0 | 17.5 | 58.5 | 59.0 | 40.1 | 49.4 | 32.9 | 85.5 | 30.0 | 55.0 | 57.7 | 31.9 | 27.3 | 63.4 | 45.5 | 38.1 | 35.0 | 27.8 | |
RBDash-v1-13B | 51.8 | 15.7 | 72.2 | 42.2 | 53.6 | 51.6 | 66.6 | 26.3 | 40.8 | 75.5 | 36.9 | 48.1 | 47.1 | 38.3 | 22.5 | 55.9 | 14.0 | 43.4 |
46.1 | 15.3 | 57.1 | 67.5 | 51.4 | 45.7 | 33.2 | 78.0 | 39.0 | 32.0 | 64.2 | 31.6 | 25.5 | 59.3 | 46.3 | 38.1 | 53.5 | 32.4 | |
LLaVA-v1.5-13B | 51.7 | 15.3 | 73.8 | 38.8 | 51.8 | 55.1 | 65.8 | 27.2 | 39.8 | 70.4 | 37.4 | 45.7 | 46.6 | 37.6 | 28.0 | 58.2 | 13.5 | 45.3 |
45.7 | 15.2 | 58.1 | 66.0 | 43.9 | 48.3 | 31.4 | 79.0 | 35.8 | 28.5 | 62.5 | 33.3 | 27.5 | 58.6 | 46.6 | 39.4 | 40.5 | 37.5 | |
CogVLM-Chat | 51.6 | 17.5 | 77.7 | 24.7 | 48.5 | 49.8 | 66.0 | 26.1 | 42.2 | 69.8 | 28.8 | 49.1 | 46.3 | 33.2 | 23.8 | 61.6 | 14.0 | 50.3 |
44.2 | 17.9 | 52.4 | 75.5 | 39.8 | 43.4 | 28.2 | 82.0 | 28.0 | 70.8 | 45.8 | 35.5 | 28.3 | 65.9 | 44.9 | 36.9 | 48.0 | 29.9 | |
ShareGPT4V-7B | 51.5 | 16.4 | 74.2 | 36.0 | 47.8 | 50.9 | 62.4 | 27.8 | 45.2 | 71.6 | 35.4 | 47.9 | 46.2 | 39.2 | 21.8 | 59.8 | 14.0 | 44.3 |
45.1 | 16.4 | 54.5 | 70.5 | 47.1 | 48.2 | 26.3 | 83.0 | 27.8 | 38.0 | 64.3 | 32.1 | 30.0 | 60.8 | 46.1 | 38.9 | 42.0 | 28.9 | |
LLaVA-NEXT-7B | 51.1 | 18.1 | 73.3 | 29.5 | 52.0 | 56.8 | 59.9 | 28.7 | 43.2 | 69.8 | 37.0 | 49.7 | 47.9 | 32.6 | 22.8 | 49.0 | 47.5 | 48.1 |
44.6 | 18.0 | 57.8 | 54.0 | 38.5 | 44.3 | 34.6 | 42.5 | 18.8 | 32.5 | 67.8 | 39.1 | 23.3 | 55.5 | 53.5 | 37.0 | 65.0 | 31.6 | |
LLaVA-v1.5-13B-XTuner | 51.1 | 16.8 | 72.5 | 40.7 | 46.8 | 54.1 | 66.5 | 26.4 | 47.5 | 68.8 | 35.6 | 47.0 | 44.2 | 38.3 | 26.0 | 52.4 | 14.0 | 51.0 |
45.1 | 16.5 | 54.4 | 66.5 | 47.9 | 52.0 | 28.8 | 82.0 | 39.2 | 37.0 | 56.8 | 28.3 | 28.3 | 49.1 | 44.4 | 37.3 | 33.5 | 40.9 | |
LLaVA-InternLM2-7B | 50.8 | 17.5 | 73.3 | 38.9 | 49.5 | 51.8 | 67.8 | 27.7 | 49.5 | 66.4 | 36.9 | 37.7 | 43.7 | 35.1 | 14.2 | 58.0 | 0.0 | 51.1 |
44.4 | 17.4 | 52.3 | 62.5 | 45.1 | 57.2 | 35.2 | 83.0 | 34.2 | 55.8 | 58.2 | 26.8 | 18.5 | 57.8 | 45.1 | 33.7 | 35.5 | 35.2 | |
LLaVA-v1.5-7B-XTuner | 50.2 | 19.5 | 72.5 | 41.1 | 46.0 | 49.9 | 62.1 | 26.0 | 45.5 | 66.4 | 35.3 | 42.8 | 45.8 | 42.5 | 25.5 | 53.9 | 11.5 | 44.2 |
43.9 | 19.3 | 60.1 | 56.5 | 42.6 | 47.2 | 28.4 | 80.5 | 32.2 | 41.2 | 63.2 | 29.9 | 24.2 | 52.5 | 43.4 | 37.2 | 32.0 | 30.5 | |
SharedCaptioner | 49.9 | 19.6 | 72.8 | 41.8 | 47.8 | 46.2 | 63.1 | 27.0 | 44.2 | 61.9 | 27.0 | 39.5 | 46.7 | 33.5 | 25.0 | 59.5 | 14.5 | 39.9 |
43.2 | 19.5 | 55.1 | 53.8 | 45.4 | 38.3 | 33.6 | 82.5 | 20.2 | 57.8 | 56.8 | 32.6 | 28.7 | 59.4 | 44.7 | 38.4 | 45.0 | 29.6 | |
LLaVA-InternLM-7B | 49.7 | 19.6 | 70.1 | 38.7 | 47.6 | 46.0 | 62.0 | 25.5 | 42.0 | 65.0 | 26.5 | 43.9 | 45.6 | 38.3 | 25.0 | 52.4 | 14.0 | 47.0 |
43.9 | 19.3 | 57.5 | 58.2 | 45.6 | 46.5 | 33.2 | 75.5 | 33.0 | 57.0 | 59.7 | 28.0 | 27.3 | 52.0 | 42.2 | 38.1 | 46.5 | 37.6 | |
LLaVA-v1.5-7B | 49.5 | 20.3 | 72.8 | 34.3 | 45.0 | 47.5 | 61.6 | 26.1 | 44.8 | 68.1 | 34.0 | 40.8 | 46.6 | 36.0 | 22.2 | 58.0 | 12.5 | 42.5 |
43.1 | 20.3 | 57.6 | 70.5 | 33.3 | 49.1 | 31.6 | 81.0 | 27.8 | 37.5 | 62.3 | 31.7 | 27.5 | 56.8 | 45.1 | 35.6 | 42.5 | 20.4 | |
LLaMA-Adapter-v2-7B | 40.4 | 27.5 | 62.3 | 32.5 | 35.0 | 30.1 | 46.5 | 24.1 | 33.8 | 34.8 | 25.2 | 30.2 | 43.9 | 33.1 | 18.2 | 44.9 | 11.0 | 36.0 |
34.1 | 27.4 | 36.4 | 40.5 | 33.8 | 30.4 | 34.9 | 71.0 | 33.2 | 42.2 | 35.8 | 31.1 | 25.8 | 52.0 | 29.1 | 32.0 | 25.0 | 29.9 | |
VisualGLM-6B | 38.6 | 27.1 | 55.0 | 33.1 | 33.8 | 31.1 | 39.2 | 26.0 | 36.8 | 40.5 | 31.1 | 39.1 | 39.2 | 32.4 | 26.8 | 43.8 | 14.0 | 33.1 |
33.9 | 27.0 | 28.9 | 44.8 | 27.1 | 34.5 | 35.2 | 65.0 | 28.0 | 35.8 | 48.2 | 30.8 | 23.5 | 44.0 | 26.2 | 29.6 | 37.5 | 21.1 |
在本节中,我们对 MMT-Bench 上的 30 个 LVLM 进行综合评估。 秒。 4.1介绍了所选的LVLMs库和评估方法。 第 2 节提供了每个元任务的定量评估。 4.2。 我们在第 2 节中介绍了使用不同提示方法的特定任务的分析。 4.3。 此外,我们在第 2 节中对三个代表性 LVLM 进行了误差分析。 4.4。
选定的 LVLM。 为了完整性,我们测试了 30 个参数不同的代表性 LVLM、视觉编码器(InternVL (Chen 等人, 2023b)、EVA-CLIP-ViT (Sun 等人, 2023) 、CLIP-ViT (Radford 等人, 2021))、大语言模型 (QWen (Bai 等人, 2023)、InternLM (Team, 2023b) 、LLaMA (Touvron 等人, 2023a, b)、Vicuna (Zheng 等人, 2023)、Flan-T5 (Chung 等人, 2022))。 详情请参见附录D.1。
评价方法。 在 MMT-Bench 中,样本采用多项选择格式,例如“这是什么?” 选项:(A) 狗 (B) 猫'。 为了从 LVLM 的响应中提取选择,我们遵循 OpenCompass 的协议(贡献者,2023a):1)检查响应是否包含选项字母(A/B) ); 2)检查选项内容(‘dog’/‘cat’); 3)使用ChatGPT进行提取。 如果这些步骤失败,我们将模型选择设置为选项字母Z以避免随机分配(Yue等人,2023a)。 准确性是主要指标。
本部分在 MMT-Bench 上与随机选择和频繁选择基线一起评估 LVLM。 我们在表 2 中报告了所有元任务的总体得分以及每个元任务的最佳性能。 每个子任务的详细结果在第 2 节中提供。附录的L。 研究了所有任务的各种提示设置。 我们将主要发现总结如下。
i) MMT-Bench 的综合挑战: 该基准测试提出了重大挑战,即使是 InternVL-Chat、GPT-4V 和 GeminiProVision 等高级模型也分别只能达到 63.4%、62.0% 和 61.6% 的准确率,这表明还有很大的改进空间。 值得注意的是,除去其最强的领域视觉识别(VR)(得分为 84.7%),GeminiProVision 的整体表现下降至 55.1%,低于令人满意。 MMT-Bench 的不同任务维度需要广泛的功能才能实现最佳性能,这强调了基准测试的广泛而严格的标准。 ii) 开源 LVLM 和闭源 LVLM 之间的比较。 大多数开源模型的性能落后于闭源模型。 然而,领先的开源 LVLM InternVL-Chat-V1.2-34B 已展现出卓越的性能,在整体精度方面优于 GPT-4V 和 GeminiProVision 等复杂的专有模型。 这一成就表明,通过扩展模型大小、优化训练方案和利用各种高质量数据,开源 LVLM 可以媲美甚至超过先进专有模型的能力。 它给开源社区带来了自豪感,并为学术界和工业界提供更多高性能且更具成本效益的解决方案铺平了道路。 iii) 大语言模型和模型缩放的影响。 如表 2 所示,随着 llava-v1.5 和 llava-v1.5-tuner 大小的增加(7B 到 13B),模型性能显着提高。 将大语言模型从 internlm 升级到 internLM2 也增强了 LLaVA 的性能,这表明更大或改进的大语言模型可以在训练数据和视觉编码器不变的情况下提高多任务性能。 iv) 不同元任务的模型性能。 大多数 LVLM 在视觉识别 (VR) 任务和视觉字幕 (VC) 方面表现出色,突出了 LVLM 识别对象“是什么”并描述图像中显示的内容的能力。 然而,对于细粒度的感知任务(定位、像素级感知等)或复杂的推理任务(图像评估判断),大多数 LVLM 都举步维艰。 v) BLIP2 在无需进行指令跟踪训练的开源模型中表现出色,优于使用大量指令跟踪数据训练的 LLaVA 模型。 尽管在某些任务的开放集 QA 中,指令调整模型可以比 BLIP2 给出更符合人类偏好的响应(Liu 等人,2023b),但在 MMT 的封闭集设置中,它们的表现比 BLIP2 差-长椅。 这反映了 MMT-Bench 的多任务挑战,并暗示使用 MMT-Bench 的分类法来扩展监督微调中的数据集,以实现未来的进步。
在本节中,我们使用 LVLM 的不同提示来评估特定任务。
使用多图像与单图像提示 LVLM。 在这里,我们探讨了利用多图像提示和单图像提示对 LVLM 性能的影响。 为此,我们在 MMT-Bench 中总结了任务,这些任务通常需要多个图像作为输入,例如图像检索和视频字幕。 对于多图像提示,我们首先评估了 LVLM,这些 LVLM 本身就设计为支持多个图像作为输入(称为多图像 LVLM),包括 mPLUG-Owl2、QWen-VL-chat 和 Gemini-Pro-想象。 此外,我们还评估了主要学习单图像提示的 LVLM(称为 Single-Image LVLMs)以进行更全面的比较,包括 BLIP2、SharedCaptioner、ShareGPT4V-7B、Monkey 和 LLaVA-v1.5- 7B. 继之前的研究(Dai等人,2023;Li等人,2023c)之后,我们将每个图像单独输入到单图像LVLM中,并在输入大语言模型之前连接所有输出的视觉嵌入。 附录 Sec.D.2 总结了为多图像 LVLM 和单图像 LVLM 设计的多图像提示。 对于单图像提示,我们手动将多张图像组合成一张图像并将其输入 LVLM(参见图 1 中的示例)。
详细的性能比较如图3(a)-(h)所示。 我们有几个观察结果:i) 多图像任务对当前的 LVLM 提出了重大挑战,其中 GeminiProVision 实现的最佳精度仅为 。 ii) 对于多图像 LVLM,提供多个图像而不是单个图像作为提示可以提高这些任务的整体性能,展示其从多个图像中提取有用信息的能力。 例如,对于人脸检索(FR)任务,当提供多个图像作为视觉提示时,GeminiProVision 的性能从 提高到 。 iii) 对于单图像 LVLM,多图像提示还有助于提高大多数模型的整体性能(Monkey 除外)。 令我们惊讶的是,BLIP2 在切换到多图像提示设置时取得了显着的性能提升,特别是在一般动作识别 (GAR) 和视频字幕 (VC) 等任务上。 这些结果凸显了 LVLM 学习多种模态的更稳健的统一表示的潜力。
为了分析 MMT-Bench 上 LVLM 的误差分布,我们检查了三个 LVLM:GPT-4V、GeminiProVision 和 InternVL-Chat-V1.2 (InternVL)。 具体来说,我们为每个模型的每个子任务随机选择最多 5 个错误回答的问题。 然后,合著者中的特定任务专家分析了这些错误样本,以确定错误的根本原因,得出图4所示的错误分布。 有关这六种错误类型的定义和案例研究,请参阅第 2 节。附录中的G。
如图4所示,感知错误是所有模型中最常见的错误类型,与 GeminiProVision (76.9%) 相比,GPT-4V 的感知错误率 (51%) 显着降低和InternVL(67.2%),表明其在感知任务中表现优越。 推理错误成为第二常见的错误类型,其中 InternVL 的推理错误率最高(14.8%),其次是 GeminiProVision(10.4%)和 GPT-4V(9.94%),凸显了所有模型在复杂推理任务中面临的挑战。
此外,三个模型中缺乏知识错误的比例相似,范围从 6.99% 到 9.0%。 这表明知识不足是一个普遍问题。 然而,与其他模型相比,GPT-4V 在缺乏能力(19%)和拒绝回答(6.11%)方面的错误率明显更高,这可能归因于其更诚实地承认其局限性并拒绝回答某些问题。问题。
InternVL 因其未能遵循指令的高错误率(6.64%)而脱颖而出,显着超过 GPT-4V(2.99%)和 GeminiProVision(1.14%),表明其在有效理解和执行指令方面存在困难。 另一方面,标注误差对整体误差分布的贡献最小,这意味着标注数据的质量较高,对模型性能的影响最小。
为了增强这些大型语言模型的性能,未来的改进应侧重于解决已识别的特定错误类型。 通过瞄准感知和推理能力、解决知识缺乏问题以及完善遵循指令的能力,开发人员可以致力于创建更准确、更可靠的语言模型。 GPT-4V对其局限性的诚实态度也凸显了人工智能系统透明度的重要性,可以进一步探索透明度并将其纳入未来的模型设计中。
5 任务分析
由于 MMT-Bench 中任务的广泛覆盖,我们可以在任务图上评估 LVLM 的多模态性能。 这样,通过分析图中任务之间的关系,就可以系统地解释不同任务在多模态能力中的作用。
5.1 分析工具
任务图。 为了研究子任务之间的关系,我们按照(Ilharco等人,2023)将每个子任务量化为任务向量。 形式上,任务向量由任务数据微调权重 与探测模型的初始权重 之间的权重变化定义,如 其中下标表示任务,表示任务损失。 分三步获得。首先,我们使用预训练的 QwenVL-Chat 作为探测模型,因为 QwenVL-Chat 在大多数子任务上都取得了良好的结果,这有助于获取有前途的任务向量。 其次,我们通过将所有多选 VQA 样本调整为每个子任务的指令跟踪数据来构造任务数据 。 第三,与对整个模型进行微调的 TaskVec (Ilharco 等人, 2023) 不同,我们使用 LoRA 微调 (Hu 等人) 对 QwenVL-Chat 进行了 epoch 的微调, 2021) 对于所有子任务,将任务向量的长度从B减少到M,消耗更少的存储资源。 使用任务向量,任务映射可以构造为 ,其中 表示任务 和 和 表示子任务总数。 根据定义,我们知道。
1 | |||||
0.29 | 0.31 | 0.32 | 0.41 | 0.60 |
排名相关性:Kendall tau 。 为了定量评估任务图上的 LVLM,我们使用 Kendall tau 度量来衡量 LVLM 在不同子任务上的性能序列之间的排名相关性。 直觉告诉我们,当任务距离 较小时,如果模型 在任务 上的表现优于模型 ,那么在任务 上,模型 将优于模型 。 Kendall 的 tau 定义为 ,其中 表示模型 在任务 上的性能, 是 LVLM 的数量。 如果参数为负,则函数 返回 ,否则返回 。 当时,LVLM在任务和上具有完全一致的性能排名。
5.2 任务图上的发现
LVLM 在彼此更接近的任务上获得了更一致的性能排名。 我们评估 LVLM 是否在两个彼此接近的任务上实现一致的性能。 为了衡量这种一致性,我们采用了第 2 节中介绍的 Kendall tau 度量。 5.1。 具体来说,我们考虑两个任务彼此更接近的所有子任务对,并计算它们的平均 Kendall's tau ,可以由 给出,其中 是用于控制两个任务之间的接近度的阈值。 如表3所示,随着阈值减小,任务距离变小,增大。 这表明 LVLM 在彼此更接近的任务上获得了更一致的性能排名。 因此,如果新任务接近 MMT-Bench 子任务之一,则可以预测 LVLM 在新任务上的性能。
域外 (OoD) 任务发现。 OoD 任务是指当前模型难以处理的任务。 发现 OoD 任务可以为未来的评估工作和开发更强大的 LVLM 提供见解。 由于不同任务上的模型性能与任务距离相关,因此我们假设 OoD 任务将被分组在任务图上的局部区域中。 因此,我们对任务图进行层次聚类来寻找OoD任务。 具体来说,子任务被分组为簇,如图5所示。 我们使用两个标准来识别包含 OoD 任务的集群。 首先,LVLM 在 OoD 任务上的性能较差。 在这方面,我们计算了所有 LVLM 模型中每个任务集群内的平均多模态性能。 其次,LVLM 在 OoD 任务上的性能将与表2中的总体多模态得分不一致,因为具有竞争性总体得分的 LVLM 甚至无法解决 OoD 任务。 因此,我们计算每个集群内的平均排名相关性。 我们在表 4 中列出了这些统计数据,并在附录 A 中提供了聚类结果的详细分析。
我们可以看到集群 、 和 实现了较低的多模态准确度和排名相关性 。 在第 4.2 节中,我们发现该模型难以处理细粒度的视觉任务,例如检测。 通过对这些聚类的分析,我们同样发现当前的多模态大型模型无法执行细粒度的视觉认知以及对位置和空间关系的理解,例如定位和检测任务。 此外,它们在与新数据结构或图像类型相关的任务中表现不佳,表现出在处理与 GUI 和特殊数据结构(如表)相关的任务方面缺乏熟练程度。
Cluster | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
# Tasks | 11 | 53 | 16 | 16 | 9 | 8 | 7 | 16 | 4 | 9 | 10 | 3 |
0.54 | 0.73 | 0.57 | 0.48 | -0.05 | 0.62 | 0.63 | 0.34 | 0.12 | 0.57 | 0.38 | 0.59 | |
Acc | 40.4 | 64.7 | 61.9 | 39.9 | 55.9 | 30.0 | 33.1 | 40.2 | 31.4 | 61.2 | 33.2 | 50.7 |
在这项工作中,我们引入了 MMT-Bench,这是一个综合基准测试,旨在评估多模态多任务理解中的 LVLM。 MMT-Bench 的广度通过其精心策划的涵盖 多模式任务的 多项选择问题数据集得到凸显。 我们的评估揭示了我们的 MMT-Bench 对当前 LVLM 带来的重大挑战。 我们在任务图上对 LVLM 进行了任务分析,使我们能够预测新任务的性能。 我们 MMT-Bench 的目标是衡量多任务 AGI 道路上的进展。 我们应该承认,MMT-Bench 可能不足以作为确定多任务 AGI 是否已实现的标准,因为它不可能包含所有多模态任务。 然而,我们认为多任务 AGI 要想在 MMT-Bench 上取得优异的性能,应该是必要的。 我们将继续扩展 MMT-Bench 的任务集。 我们相信,MMT-Bench 将激发 LVLM 的进一步研究和开发,使我们更接近实现真正的智能多模态系统。
更广泛的影响。 MMT-Bench 作为评估大型视觉语言模型 (LVLM) 的基准的开发和广泛采用有可能对人工智能领域产生重大影响。 虽然 MMT-Bench 为推进 LVLM 研究提供了宝贵的见解和指导,但重要的是要考虑其更广泛的影响,包括伦理考虑和潜在的社会后果。
MMT-Bench 的一项潜在积极影响是其在推动 LVLM 技术进步方面的作用,从而提高各种多模式任务的性能和能力。 这可以使许多应用程序受益,例如视觉对话、视频分析和文档理解,最终增强用户体验和生产力。
然而,认识并解决潜在的负面影响也至关重要。 MMT-Bench 的主要限制之一是它对精选数据的依赖,这可能会无意中引入基于数据收集所用来源和方法的偏差。 例如,每个元任务的性能是通过对所有子任务取平均值来获得的,这可能会导致评估有偏差,因为元任务包含不同数量的子任务。 此外,MMT-Bench 中任务和子任务的选择可能只能部分捕捉现实世界场景的多样性,导致人们对 LVLM 跨不同领域和人群的能力的了解有限。 此外,数据收集过程可能不成比例地代表某些人口统计数据或背景,这可能导致对 LVLM 绩效的评估出现偏差。
另一个担忧是,基准测试对总体分数和特定任务准确度等性能指标的强调可能会过度简化评估过程,并掩盖 LVLM 性能的细微差别。 这可能会掩盖不同人口群体或领域的模型性能差异,从而导致人工智能系统中的偏见和不平等现象长期存在。 我们致力于将尽可能多的多模式任务收集到我们的 MMT-Bench 中,以进行公正的评估。
- Achille et al. (2019) Achille, A., Lam, M., Tewari, R., Ravichandran, A., Maji, S., Fowlkes, C. C., Soatto, S., and Perona, P. Task2vec: Task embedding for meta-learning. In Proceedings of the IEEE/CVF international conference on computer vision, pp. 6430–6439, 2019.
- AI et al. (2024) AI, ., :, Young, A., Chen, B., Li, C., Huang, C., Zhang, G., Zhang, G., Li, H., Zhu, J., Chen, J., Chang, J., Yu, K., Liu, P., Liu, Q., Yue, S., Yang, S., Yang, S., Yu, T., Xie, W., Huang, W., Hu, X., Ren, X., Niu, X., Nie, P., Xu, Y., Liu, Y., Wang, Y., Cai, Y., Gu, Z., Liu, Z., and Dai, Z. Yi: Open foundation models by, 2024.
- Anthropic (2023) Anthropic. Claude, 2023. URL Accessed: 2023-04-18.
- Antol et al. (2015) Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., and Parikh, D. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pp. 2425–2433, 2015.
- Bai et al. (2023) Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., and Zhou, J. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
- Chen et al. (2023a) Chen, L., Li, J., Dong, X., Zhang, P., He, C., Wang, J., Zhao, F., and Lin, D. Sharegpt4v: Improving large multi-modal models with better captions. arXiv preprint arXiv:2311.12793, 2023a.
- Chen et al. (2023b) Chen, Z., Wu, J., Wang, W., Su, W., Chen, G., Xing, S., Zhong, M., Zhang, Q., Zhu, X., Lu, L., Li, B., Luo, P., Lu, T., Qiao, Y., and Dai, J. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023b.
- Chung et al. (2022) Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., Webson, A., Gu, S. S., Dai, Z., Suzgun, M., Chen, X., Chowdhery, A., Narang, S., Mishra, G., Yu, A., Zhao, V., Huang, Y., Dai, A., Yu, H., Petrov, S., Chi, E. H., Dean, J., Devlin, J., Roberts, A., Zhou, D., Le, Q. V., and Wei, J. Scaling instruction-finetuned language models, 2022. URL
- Contributors (2023a) Contributors, O. Opencompass: A universal evaluation platform for foundation models., 2023a.
- Contributors (2023b) Contributors, T.-M. Transcore-m., 2023b.
- Contributors (2023c) Contributors, X. Xtuner: A toolkit for efficiently fine-tuning llm., 2023c.
- Dai et al. (2023) Dai, W., Li, J., Li, D., Tiong, A. M. H., Zhao, J., Wang, W., Li, B., Fung, P., and Hoi, S. Instructblip: Towards general-purpose vision-language models with instruction tuning, 2023.
- Ding et al. (2021) Ding, M., Yang, Z., Hong, W., Zheng, W., Zhou, C., Yin, D., Lin, J., Zou, X., Shao, Z., Yang, H., et al. Cogview: Mastering text-to-image generation via transformers. Advances in Neural Information Processing Systems, 34:19822–19835, 2021.
- Dong et al. (2024) Dong, X., Zhang, P., Zang, Y., Cao, Y., Wang, B., Ouyang, L., Wei, X., Zhang, S., Duan, H., Cao, M., Zhang, W., Li, Y., Yan, H., Gao, Y., Zhang, X., Li, W., Li, J., Chen, K., He, C., Zhang, X., Qiao, Y., Lin, D., and Wang, J. Internlm-xcomposer2: Mastering free-form text-image composition and comprehension in vision-language large model. arXiv preprint arXiv:2401.16420, 2024.
- Fu et al. (2023) Fu, C., Chen, P., Shen, Y., Qin, Y., Zhang, M., Lin, X., Yang, J., Zheng, X., Li, K., Sun, X., et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
- Gao et al. (2023) Gao, P., Han, J., Zhang, R., Lin, Z., Geng, S., Zhou, A., Zhang, W., Lu, P., He, C., Yue, X., Li, H., and Qiao, Y. Llama-adapter v2: Parameter-efficient visual instruction model. arXiv preprint arXiv:2304.15010, 2023.
- Hu et al. (2021) Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., and Chen, W. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
- Hudson & Manning (2019) Hudson, D. A. and Manning, C. D. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 6700–6709, 2019.
- Ilharco et al. (2023) Ilharco, G., Ribeiro, M. T., Wortsman, M., Gururangan, S., Schmidt, L., Hajishirzi, H., and Farhadi, A. Editing models with task arithmetic. the 11th International Conference on Learning Representation (ICLR 2023), 2023.
- Krishna et al. (2017) Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L.-J., Shamma, D. A., et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International journal of computer vision, 123:32–73, 2017.
- Langley (2000) Langley, P. Crafting papers on machine learning. In Langley, P. (ed.), Proceedings of the 17th International Conference on Machine Learning (ICML 2000), pp. 1207–1216, Stanford, CA, 2000. Morgan Kaufmann.
- Latif et al. (2023) Latif, E., Mai, G., Nyaaba, M., Wu, X., Liu, N., Lu, G., Li, S., Liu, T., and Zhai, X. Agi: Artificial general intelligence for education, 2023.
- Li et al. (2023a) Li, B., Wang, R., Wang, G., Ge, Y., Ge, Y., and Shan, Y. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023a.
- Li et al. (2023b) Li, J., Li, D., Savarese, S., and Hoi, S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models, 2023b.
- Li et al. (2023c) Li, K., Wang, Y., He, Y., Li, Y., Wang, Y., Liu, Y., Wang, Z., Xu, J., Chen, G., Luo, P., et al. Mvbench: A comprehensive multi-modal video understanding benchmark. arXiv preprint arXiv:2311.17005, 2023c.
- Li et al. (2023d) Li, Z., Yang, B., Liu, Q., Ma, Z., Zhang, S., Yang, J., Sun, Y., Liu, Y., and Bai, X. Monkey: Image resolution and text label are important things for large multi-modal models. arXiv preprint arXiv:2311.06607, 2023d.
- Lin et al. (2014) Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pp. 740–755. Springer, 2014.
- Liu et al. (2023a) Liu, H., Li, C., Li, Y., and Lee, Y. J. Improved baselines with visual instruction tuning, 2023a.
- Liu et al. (2023b) Liu, H., Li, C., Wu, Q., and Lee, Y. J. Visual instruction tuning, 2023b.
- Liu et al. (2024a) Liu, H., Li, C., Li, Y., Li, B., Zhang, Y., Shen, S., and Lee, Y. J. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
- Liu et al. (2024b) Liu, S., Ying, K., Zhang, H., Yang, Y., Lin, Y., Zhang, T., Li, C., Qiao, Y., Luo, P., Shao, W., and Zhang, K. Convbench: A multi-turn conversation evaluation benchmark with hierarchical capability for large vision-language models, 2024b.
- Liu et al. (2023c) Liu, Y., Duan, H., Zhang, Y., Li, B., Zhang, S., Zhao, W., Yuan, Y., Wang, J., He, C., Liu, Z., et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023c.
- Lu et al. (2024) Lu, H., Liu, W., Zhang, B., Wang, B., Dong, K., Liu, B., Sun, J., Ren, T., Li, Z., Yang, H., Sun, Y., Deng, C., Xu, H., Xie, Z., and Ruan, C. Deepseek-vl: Towards real-world vision-language understanding, 2024.
- Lu et al. (2023) Lu, P., Bansal, H., Xia, T., Liu, J., Li, C., Hajishirzi, H., Cheng, H., Chang, K.-W., Galley, M., and Gao, J. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.
- Marino et al. (2019) Marino, K., Rastegari, M., Farhadi, A., and Mottaghi, R. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pp. 3195–3204, 2019.
- Morris et al. (2023) Morris, M. R., Sohl-dickstein, J., Fiedel, N., Warkentin, T., Dafoe, A., Faust, A., Farabet, C., and Legg, S. Levels of agi: Operationalizing progress on the path to agi. arXiv preprint arXiv:2311.02462, 2023.
- Radford et al. (2021) Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision, 2021.
- RBDash-Team (2023) RBDash-Team. Rbdash., 2023.
- Shao et al. (2023) Shao, W., Hu, Y., Gao, P., Lei, M., Zhang, K., Meng, F., Xu, P., Huang, S., Li, H., Qiao, Y., et al. Tiny lvlm-ehub: Early multimodal experiments with bard. arXiv preprint arXiv:2308.03729, 2023.
- Singhal et al. (2023) Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., et al. Large language models encode clinical knowledge. Nature, 620(7972):172–180, 2023.
- Sun et al. (2023) Sun, Q., Fang, Y., Wu, L., Wang, X., and Cao, Y. Eva-clip: Improved training techniques for clip at scale. arXiv preprint arXiv:2303.15389, 2023.
- Team (2023a) Team, G. Gemini: A family of highly capable multimodal models, 2023a.
- Team (2023b) Team, I. Internlm: A multilingual language model with progressively enhanced capabilities., 2023b.
- Team (2023c) Team, Q. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023c.
- Touvron et al. (2023a) Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., and Lample, G. Llama: Open and efficient foundation language models, 2023a.
- Touvron et al. (2023b) Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C. C., Chen, M., Cucurull, G., Esiobu, D., Fernandes, J., Fu, J., Fu, W., Fuller, B., Gao, C., Goswami, V., Goyal, N., Hartshorn, A., Hosseini, S., Hou, R., Inan, H., Kardas, M., Kerkez, V., Khabsa, M., Kloumann, I., Korenev, A., Koura, P. S., Lachaux, M.-A., Lavril, T., Lee, J., Liskovich, D., Lu, Y., Mao, Y., Martinet, X., Mihaylov, T., Mishra, P., Molybog, I., Nie, Y., Poulton, A., Reizenstein, J., Rungta, R., Saladi, K., Schelten, A., Silva, R., Smith, E. M., Subramanian, R., Tan, X. E., Tang, B., Taylor, R., Williams, A., Kuan, J. X., Xu, P., Yan, Z., Zarov, I., Zhang, Y., Fan, A., Kambadur, M., Narang, S., Rodriguez, A., Stojnic, R., Edunov, S., and Scialom, T. Llama 2: Open foundation and fine-tuned chat models, 2023b.
- Wallace et al. (2021) Wallace, B., Wu, Z., and Hariharan, B. Can we characterize tasks without labels or features? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1245–1254, 2021.
- Wang et al. (2023) Wang, W., Lv, Q., Yu, W., Hong, W., Qi, J., Wang, Y., Ji, J., Yang, Z., Zhao, L., Song, X., Xu, J., Xu, B., Li, J., Dong, Y., Ding, M., and Tang, J. Cogvlm: Visual expert for pretrained language models. 2023.
- Xu et al. (2023) Xu, P., Shao, W., Zhang, K., Gao, P., Liu, S., Lei, M., Meng, F., Huang, S., Qiao, Y., and Luo, P. Lvlm-ehub: A comprehensive evaluation benchmark for large vision-language models. arXiv preprint arXiv:2306.09265, 2023.
- Yang et al. (2023a) Yang, Z., Li, L., Lin, K., Wang, J., Lin, C.-C., Liu, Z., and Wang, L. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1):1, 2023a.
- Yang et al. (2023b) Yang, Z., Li, L., Lin, K., Wang, J., Lin, C.-C., Liu, Z., and Wang, L. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1):1, 2023b.
- Yang et al. (2023c) Yang, Z., Liu, J., Han, Y., Chen, X., Huang, Z., Fu, B., and Yu, G. Appagent: Multimodal agents as smartphone users. arXiv preprint arXiv:2312.13771, 2023c.
- Ye et al. (2023a) Ye, Q., Xu, H., Xu, G., Ye, J., Yan, M., Zhou, Y., Wang, J., Hu, A., Shi, P., Shi, Y., et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023a.
- Ye et al. (2023b) Ye, Q., Xu, H., Ye, J., Yan, M., Hu, A., Liu, H., Qian, Q., Zhang, J., Huang, F., and Zhou, J. mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration, 2023b.
- Yin et al. (2023) Yin, Z., Wang, J., Cao, J., Shi, Z., Liu, D., Li, M., Sheng, L., Bai, L., Huang, X., Wang, Z., et al. Lamm: Language-assisted multi-modal instruction-tuning dataset, framework, and benchmark. arXiv preprint arXiv:2306.06687, 2023.
- Yu et al. (2023) Yu, W., Yang, Z., Li, L., Wang, J., Lin, K., Liu, Z., Wang, X., and Wang, L. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
- Yue et al. (2023a) Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., Wei, C., Yu, B., Yuan, R., Sun, R., Yin, M., Zheng, B., Yang, Z., Liu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. arXiv preprint arXiv:2311.16502, 2023a.
- Yue et al. (2023b) Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. arXiv preprint arXiv:2311.16502, 2023b.
- Zamir et al. (2018) Zamir, A. R., Sax, A., Shen, W., Guibas, L. J., Malik, J., and Savarese, S. Taskonomy: Disentangling task transfer learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3712–3722, 2018.
- Zhang et al. (2023a) Zhang, P., Dong, X., Wang, B., Cao, Y., Xu, C., Ouyang, L., Zhao, Z., Ding, S., Zhang, S., Duan, H., Zhang, W., Yan, H., Zhang, X., Li, W., Li, J., Chen, K., He, C., Zhang, X., Qiao, Y., Lin, D., and Wang, J. Internlm-xcomposer: A vision-language large model for advanced text-image comprehension and composition. arXiv preprint arXiv:2309.15112, 2023a.
- Zhang et al. (2023b) Zhang, R., Han, J., Liu, C., Gao, P., Zhou, A., Hu, X., Yan, S., Lu, P., Li, H., and Qiao, Y. Llama-adapter: Efficient fine-tuning of language models with zero-init attention. arXiv preprint arXiv:2303.16199, 2023b.
- Zheng et al. (2023) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I. Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.
秒。 A:展示了对根据我们的 MMT-Bench 构建的任务图进行层次聚类和更多分析。
秒。 B:包括样本大小、视觉输入类型以及针对每个子任务评估的 LVLM 功能的详细信息。
秒。 C:枚举整篇论文中使用的任务缩写。
秒。 D:通过多图像和视觉提示呈现详细的模型配置和实验细节。
秒。 E:比较涉及像素坐标和标准化坐标的任务的性能。
秒。 F:比较 LVLM 在不同图像类型和多模式功能上的性能。
秒。 G:说明 MMT-Bench 中 元任务上的 GPT-4V、GeminiProVision 和 InternVL-Chat 的错误情况。
秒。 H:给出 MMT-Bench 与其他基准在 OCR 相关任务上的比较。
秒。 I:介绍一些关于基准构建的细节。
秒。 J:讨论 MMT-Bench 和其他替代方案中使用的 openCompass 协议。
秒。 K:给出评估中使用的计算资源。
秒。 L:提供 MMT-Bench 上 30 个模型在所有 162 个子任务中的详细性能。
附录 A任务图
域外 (OoD) 任务发现。 我们可以看到集群 、 和 实现了较低的多模态准确度和排名相关性 。 从这些集群中,我们发现当前的多模态大型模型缺乏执行细粒度视觉认知和理解位置和空间关系的能力,例如定位和检测任务。 此外,它们在与新数据结构或图像类型相关的任务中表现不佳,表现出在处理与 GUI 和特殊数据结构(如表)相关的任务方面缺乏熟练程度。
集群主要涉及检测、跟踪和定位任务,所有这些任务都与图像内对象的定位相关。 这表明当前的大型多模态模型缺乏细粒度的视觉认知以及对位置和空间关系的理解。
集群 中的任务以 GUI 导航为中心,这是一种新颖的任务类型,需要强大的视觉理解、对象定位和操作移动设备的专业知识(Yang 等人,2023c)。 这表明当前的大型多模态模型需要针对 GUI 相关任务进行进一步优化。
除了检测和定位任务之外,集群还包括涉及特殊图像识别或将其转换为结构化文本的任务。 前者要求模型具备空间认知和细粒度的视觉能力,而后者则需要强大的OCR能力和广泛的知识(例如理解和输出代码或表格的基本结构)。 目前我们测试的 LVLM 在这方面还存在不足。
域内任务发现。 从表4中,我们可以看到集群、和实现了相对较高的准确率和较大的排名相关性。 我们观察到,当前的多模态大型模型具有强大的高水平视觉理解能力,使它们能够有效地处理视觉识别任务,即使在处理医学图像等专业图像时也是如此。 此外,他们受益于强大的大语言模型来准确描述图像。
- •
集群主要包括视觉识别任务,但还扩展到涵盖需要初级专业知识(例如医学和情感)的复杂视觉理解任务。 在这个集群中,该模型表现出较大的 和较高的准确度,这表明当前的多模态模型关注需要注入特定领域知识的任务,而不仅仅是自然图像。 这意味着具有一定的处理专业领域问题的能力。
在 Cluster 中,LVLM 在与图像视觉描述相关的任务上取得了良好的性能。 这表明当前的大型多模态模型可以很好地描述图像。 这是因为这些模型通常是通过大量图像文本对进行调整的。
Abbreviation | Full Term | Abbreviation | Full Term |
Meta-Task | |||
VR | Visual Recognition | VI | Visual Illusion |
Loc | Localization | MemU | Meme Understanding |
OCR | OCR | VPU | Visual Prompt Understanding |
Count | Counting | AND | Anomaly Detection |
HLN | Hallucination | KD | Keypoint Detection |
IR | Image Retrieval | VCR | Visual Commonsense Reasoning |
3D | 3D | IEJ | Image Evaluation Judgement |
VC | Visual Captioning | MIA | Multiple Image Analysis |
VG | Visual Grounding | CIM | Cross Image Matching |
DU | Doc Understanding | TU | Temporal Understanding |
AR | Action Recognition | VCo | Visual Code |
PLP | Pixel Level Perception | MedU | Medical Understanding |
I2IT | Image-to-image Translation | AUD | Autonomous Driving |
RR | Relation Reasoning | DKR | Discipline Knowledge Reasoning |
IQT | Intelligence Quotient Test | EA | Embodied AI |
Emo | Emotion | GN | GUI Navigation |
Subtask | |||
AQS | Action Quality Assessment | SODRD | Salient Object Detection RGBD |
FECR | Facial Expression Change Recognition | SLR | Sign Language Recognition |
FR | Face Retrieval | SOT | Single Object Tracking |
GAR | General Action Recognition | S2IR | Sketch2image Retrieval |
HR | Handwritten Retrieval | SD | Spot the Diff |
I2IR | Image2image Retrieval | SS | Spot the Similarity |
IC | Image Colorization | TA | Temporal Anticipation |
MVU | Meme Video Understanding | TL | Temporal Localization |
ME | MEVIS | TO | Temporal Ordering |
MIC | Multiple Image Captioning | T2IR | Text2image Retrieval |
NIP | Next Image Prediction | 3DCR | 3D CAD Recognition |
OSD | One-shot Detection | 3DIR | 3D Indoor Recognition |
PRe | Person Reid | VR | Vehicle Retrieval |
PT | Point Tracking | VC | Video Captioning |
附录 C任务缩写
鉴于基准测试中测试的任务和模型数量巨大,我们使用缩写来压缩手稿。 整篇论文中使用的缩写如表A1所示。
附录 D更多实验细节
D.1 LVLM 型号详细信息
表A5总结了本文使用的LVLM信息,包括相应的参数大小、视觉编码器和大语言模型。 请注意,我们使用遵循 OpenCompass 的协议(贡献者,2023a)来进行评估过程。 不同模型的推理时间有所不同。 例如,较小的 LLaVA-v1.5-7B (Liu 等人, 2023a) 模型使用 8 个 GPU 仅需要 分钟即可完成评估,而较大的 InternVL- Chat-V1.2-34B 模型(Chen 等人,2023b) 需要 分钟和大约 80GB 内存。 我们的开源代码库支持多GPU分布式推理,有效加速推理过程。
D.3 视觉参考提示实验细节
在 4.3 节中,我们探讨了视觉提示与替代提示策略在 14 种不同任务中的不同功效。 这些包括人类交互理解、社会关系识别、人与物体交互识别、动物关键点检测、车辆关键点检测、人体关键点检测、衣服关键点检测、场景文本识别、交互式分割、实例字幕、多实例字幕、单次检测,单个物体跟踪,并通过视觉提示进行计数。
附录 E像素坐标与标准化坐标
在图A2中,我们分析了检测相关任务的性能,特别是点跟踪、图像抠图、像素识别、多边形定位、像素定位、深度估计、MEVIS、遥感物体检测、旋转物体检测、小物体检测、迷彩物体检测、RGB-D显着物体检测、透明物体检测、人脸检测、物体检测、RGB显着物体检测、参考检测、原因分割和图像密集字幕。 这些任务涵盖定位、像素级感知和视觉字幕,比较两种不同坐标格式下的结果。 值得注意的是,GeminiProVision 落后于 BLIP2 和 XComposer2 等顶级开源 LVLM,后者已经过检测数据的广泛训练。 大多数模型对标准化坐标的偏好归因于它们在训练指令模板中的使用。
不同视觉类型的性能。 我们在图 A3 中比较了 20 个 LVLM 在 13 种视觉输入类型中的性能。 由于任务难度,大多数 LVLM 都难以处理科学图表,因为包括科学图表和“乌鸦渐进矩阵”在内的许多图表都需要复杂的推理,而当前 LVLM 并不具备这种能力。
跨多式联运功能的性能。 我们还在图 A4 中比较了 LVLM 跨 类型视觉输入的性能。 正如我们所看到的,GeminiProVision 在大多数功能上再次展现出强大的优势,特别是在检索和多图像分析(涉及多图像的识别和匹配)方面,远远优于其他开源 LVLM。 这一优势源于GeminiProVision对多图像模式的支持及其强大的泛化能力,引导开源模型未来的方向朝着关注多图像和视频理解的方向发展。
Meta-Task | Subtask | # subtasks |
Table A1 – continued from previous page | ||
Meta-Task | Subtask | # subtasks |
Cluster ID: 1 | ||
Visual Prompt Understanding | Visual Prompt Understanding, Som (Set-of-marks) Recognition | 2 |
Pixel Level Perception | Image Matting | 1 |
Visual Recognition | Color Recognition, Abstract Visual Recognition | 2 |
Discipline Knowledge Reasoning | Science, Tech Engineering, Health Medicine, Humanities Social Science, Business, Art Design | 6 |
Cluster ID: 2 | ||
Visual Recognition | Waste recognition, Logo and Brand Recognition, Animals Recognition, Weapon Recognition, Celebrity Recognition, Shape Recognition, Age Gender Race Recognition, Rock Recognition, Painting Recognition, Gesture Recognition, Vehicle Recognition, Astronomical Recognition, Fashion Recognition, Musical Instrument Recognition, Disaster Recognition, Sports Recognition, Building Recognition, Texture Material Recognition, Plant Recognition, Film and Television Recognition, Animated Character Recognition, Electronic Object Recognition, Scene Recognition, National Flag Recognition, Profession Recognition, Weather Recognition, Food Recognition | 27 |
Relation Reasoning | Human Object Interaction Recognition, Human Interaction Understanding | 2 |
Action Recognition | Image-based Action Recognition, Sign Language Recognition, General Action Recognition | 4 |
Emotion | Scene Emotion Recognition, Artwork Emotion Recognition, Facial Expression Recognition, Micro Expression Recognition, Body Emotion Recognition | 5 |
Image Evaluation Judgement | Lvlm Response Judgement | 1 |
Visual Commonsense Reasoning | WhoopsVQA | 1 |
Hallucination | Attribute Hallucination | 1 |
Counting | Counting by Visual Prompting, Crowd Counting | 2 |
Medical Understanding | Other Biological Attributes | 1 |
Autonomous Driving | Traffic Sign Understanding | 1 |
OCR | Font Recognition, Scene Text Recognition | 2 |
Pixel Level Perception | Pixel Recognition | 1 |
Anomaly Detection | Face Mask Anomaly Detection | 1 |
Multiple Image Analysis | Spot the Diff | 1 |
Visual Captioning | Instance Captioning | 1 |
Doc Understanding | Clock Reading, Doc VQA | 2 |
Meme Understanding | Meme Image Understanding | 1 |
Cluster ID: 3 | ||
Medical Understanding | Medical Modality Recognition, Lesion Grading, Disease DiagnoseAnatomy Identification | 3 |
Visual Captioning | Multiple Image Captioning, Writing Poetry from Image | 2 |
Emotion | Facial Expression Change Recognition | 1 |
Visual Recognition | Image Season Recognition, Sculpture Recognition, Chemical Apparatus Recognition, Landmark Recognition, Religious Recognition | 5 |
Hallucination | Relation Hallucination | 1 |
Relation reasoning | Social Relation Recognition | 1 |
OCR | Handwritten Text Recognition | 1 |
Temporal Understanding | Temporal Anticipation | 1 |
Cluster ID: 4 | ||
Intelligence Quotient Test | Ravens Progressive Matrices | 1 |
Temporal Understanding | Temporal Localization | 1 |
Autonomous Driving | Traffic Participants Understanding, Temporal Sequence Understanding, Multiple View Image Understanding | 3 |
Counting | Counting by Category, Counting by Reasoning | 2 |
Hallucination | Order Hallucination | 1 |
Doc Understanding | Visual Document Information Extraction, Chart VQA | 2 |
Action Recognition | Action Quality Assessment, | 2 |
3D | 3D Cad Recognition, 3D indoor recognition | 2 |
Anomaly Detection | Industrial Produce Anomaly Detection | 1 |
Image Evaluation Judgement | Image Quality Assessment | 1 |
Low Level Vision | Depth Estimation | 1 |
Cluster ID: 5 | ||
Multiple Image Analysis | Spot the Similarity | 1 |
Visual Illusion | Color Assimilation, Geometrical Relativity, Color Constancy, Color Contrast, Geometrical Perspective | 5 |
Autonomous Driving | Traffic Light Understanding | 1 |
Visual Recognition | Deepfake Detection | 1 |
Anomaly Detection | Helmet Anomaly Detection | 1 |
Cluster ID: 6 | ||
Image Retrieval | Vehicle Retrieval, Image2image Retrieval, Sketch2image Retrieval, Face Retrieval, Text2image Retrieval, Handwritten Retrieval, Person Reid | 7 |
Image-to-image translation | Image Colorization | 1 |
Cluster ID: 7 | ||
Visual Code | Eqn2latex, | 2 |
Keypoint Detection | Clothes Keypoint Detection | 1 |
OCR | Handwritten Math Expression recognition | 1 |
Pixel Level Perception | Interactive Segmentation | 1 |
Temporal Understanding | Temporal Ordering | 1 |
Visual Captioning | Image Dense Captioning | 1 |
Action Recognition | Gaze Estimation | 1 |
Cluster ID: 8 | ||
Localization | Salient Object Detection RGB, Camouflage Object Detection, Face Detection, Object Detection, Small Object Detection, Salient Object Detection RGBD, Rotated Object Detection, Remote Sensing Object Detection, Transparent Object Detection | 9 |
Visual Grounding | Referring Detection, Reason Seg | 2 |
Cross Image Matching | Point Tracking, One Shot Detection, | 3 |
Image-to-image Translation | Jigsaw Puzzle Solving | 1 |
Cross Image Catching | Single Object Tracking | 1 |
Pixel Level Perception | Pixel Localization | 1 |
Cluster ID: 9 | ||
GUI Navigation | Web Shopping, GUI General, Google Apps, GUI Install | 4 |
Cluster ID: 10 | ||
Visual Captioning | Multiple Instance Captioning, Image Captioning Paragraph, Image Captioning | 3 |
Anomaly Detection | Traffic Anomaly Detection | 1 |
Doc Understanding | Chart to text | 1 |
Hallucination | Exist Hallucination | 1 |
Relation Reasoning | Scene Graph Recognition | 1 |
Embodied AI | Navigation | 1 |
Anomaly Detection | Behavior Anomaly Detection | 1 |
Cluster ID: 11 | ||
Doc Understanding | Table Structure Recognition, Chart to Table | 2 |
Keypoint Detection | Furniture Keypoint Detection, Vehicle Keypoint Detection, Human Keypoint Detection, Animal Keypoint Detection | 4 |
Pixel Level Perception | Polygon Localization, | 2 |
Temporal Understanding | Next Image Prediction | 1 |
Visual Code | Sketch2code, Screenshot2code | 2 |
Cluster ID: 12 | ||
Meme Understanding | Meme Video Understanding | 1 |
Temporal Understanding | Mevis | 1 |
Visual Captioning | Video Captioning | 1 |
Subtask Name | Sample Num | Visual Input Type | Capability |
Visual Grounding | |||
Reason Seg | 196 | Natural Image | Visual Reasoning,Visual Localization |
Referring Detection | 200 | Natural Image | Visual Localization |
Doc Understanding | |||
Doc Vqa | 200 | Text-rich Image | Document Understanding |
Visual Document Information Extraction | 200 | Text-rich Image | Document Understanding |
Chart To Text | 200 | Chart Image | Document Understanding |
Chart To Table | 200 | Chart Image | Document Understanding |
Clock Reading | 200 | Abstract Image | Visual Recognition,Document Understanding |
Chart Vqa | 200 | Chart Image | Document Understanding |
Table Structure Recognition | 46 | Chart Image | Document Understanding |
Action Recognition | |||
Gaze Estimation | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Image Based Action Recognition | 200 | Natural Image | Visual Recognition |
General Action Recognition | 200 | Natural Image | Visual Recognition,Multi-Images Analysis |
Action Quality Assessment | 200 | Natural Image | Visual Recognition,Multi-Images Analysis,Expert Knowledge Utilization |
Sign Language Recognition | 200 | Natural Image | Visual Recognition,Multi-Images Analysis |
Localization | |||
Remote Sensing Object Detection | 200 | Remote Sensing Image | Visual Recognition,Visual Localization |
Rotated Object Detection | 90 | Remote Sensing Image | Visual Recognition,Visual Localization |
Small Object Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Camouflage Object Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Salient Object Detection Rgbd | 200 | Natural Image,Depth Map | Visual Localization |
Transparent Object Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Face Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Object Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Salient Object Detection Rgb | 200 | Natural Image | Visual Localization |
Visual Recognition | |||
Deepfake Detection | 200 | Natural Image,Synthetic Image | Visual Recognition,Visual Reasoning,Expert Knowledge Utilization |
Weather Recognition | 194 | Natural Image | Visual Recognition |
Image Season Recognition | 200 | Natural Image | Visual Recognition |
Gesture Recognition | 200 | Natural Image | Visual Recognition |
Muscial Instrument Recognition | 200 | Natural Image | Visual Recognition |
Food Recognition | 200 | Natural Image | Visual Recognition |
Landmark Recognition | 50 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Scene Recognition | 200 | Natural Image | Visual Recognition |
Animals Recognition | 200 | Natural Image | Visual Recognition |
Chemical Apparatusn Recognition | 200 | Natural Image | Visual Recognition |
Rock Recognition | 200 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Fashion Recognition | 200 | Natural Image | Visual Recognition |
Logo And Brand Recognition | 200 | Natural Image | Visual Recognition |
Astronomical Recognition | 94 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Painting Recognition | 200 | Painting Image | Visual Recognition,Expert Knowledge Utilization |
Color Recognition | 200 | Synthetic Image | Visual Recognition |
Plant Recognition | 200 | Natural Image | Visual Recognition |
Shape Recognition | 200 | Synthetic Image | Visual Recognition |
Profession Recognition | 200 | Natural Image | Visual Recognition |
Building Recognition | 200 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Electronic Object Recognition | 200 | Natural Image | Visual Recognition |
Sports Recognition | 200 | Natural Image | Visual Recognition |
Disaster Recognition | 200 | Natural Image | Visual Recognition |
Celebrity Recognition | 200 | Natural Image | Visual Recognition |
Vehicle Recognition | 200 | Natural Image | Visual Recognition |
National Flag Recognition | 200 | Synthetic Image | Visual Recognition |
Abstract Visual Recognition | 200 | Abstract Image | Visual Recognition |
Animated Character Recognition | 200 | Synthetic Image | Visual Recognition |
Texture Material Recognition | 200 | Natural Image | Visual Recognition |
Film And Television Recognition | 200 | Synthetic Image | Visual Recognition,Expert Knowledge Utilization |
Sculpture Recognition | 50 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Age Gender Race Recognition | 200 | Natural Image | Visual Recognition |
Weapon Recognition | 200 | Natural Image | Visual Recognition |
Religious Recognition | 200 | Natural Image,Synthetic Image | Visual Recognition,Expert Knowledge Utilization |
Waste Recognition | 200 | Natural Image | Visual Recognition,Expert Knowledge Utilization |
Subtask Name | Sample Num | Visual Input Type | Capability |
Gui Navigation | |||
Gui General | 200 | Screenshot Image | Visual Reasoning,Visual Localization |
Google Apps | 200 | Screenshot Image | Visual Reasoning,Visual Localization |
Web Shopping | 200 | Screenshot Image | Visual Reasoning,Visual Localization |
Gui Install | 200 | Screenshot Image | Visual Reasoning,Visual Localization |
OCR | |||
Font Recognition | 200 | Text-rich Image | OCR |
Handwritten Text Recognition | 100 | Text-rich Image | OCR |
Handwritten Mathematical Expression Recognition | 100 | Text-rich Image | OCR |
Scene Text Recognition | 200 | Natural Image,Text-rich Image | OCR |
Image-to-image Translation | |||
Jigsaw Puzzle Solving | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Image Colorization | 200 | Natural Image | Pixel Perception |
Temporal Understanding | |||
Next Img Prediction | 200 | Visual Mark | Temporal Understanding |
Mevis | 200 | Natural Image | Temporal Understanding |
Temporal Anticipation | 200 | Natural Image | Temporal Understanding |
Temporal Ordering | 200 | Natural Image | Temporal Understanding |
Temporal Localization | 193 | Natural Image | Temporal Understanding |
Relation Reasoning | |||
Social Relation Recognition | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Human Object Interaction Recognition | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Scene Graph Recognition | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Human Interaction Understanding | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Discipline Knowledge Reasoning | |||
Science | 127 | Scientific Diagram | Visual Reasoning,Expert Knowledge Utilization |
Health Medicine | 140 | Natural Image,Chart Image,Medical Image | Visual Reasoning,Expert Knowledge Utilization |
Art Design | 110 | Synthetic Image,Text-rich Image,Painting Image | Visual Reasoning,Expert Knowledge Utilization |
Humanitites Social Science | 112 | Synthetic Image,Painting Image | Visual Reasoning,Expert Knowledge Utilization |
Tech Engineering | 182 | Chart Image,Scientific Diagram | Visual Reasoning,Expert Knowledge Utilization |
Business | 120 | Text-rich Image,Chart Image | Visual Reasoning,Expert Knowledge Utilization |
Intelligence Quotient Test | |||
Ravens Progressive Matrices | 200 | Scientific Diagram | Visual Reasoning,Expert Knowledge Utilization |
Embodied AI | |||
Navigation | 200 | Synthetic Image | Visual Reasoning,Expert Knowledge Utilization |
Emotion | |||
Facail Expression Change Recognition | 200 | Natural Image | Visual Recognition,Temporal Understanding |
Scene Emotion Recognition | 200 | Natural Image | Visual Recognition |
Micro Expression Recognition | 200 | Natural Image | Visual Recognition |
Artwork Emotion Recognition | 200 | Painting Image | Visual Recognition |
Body Emotion Recognition | 200 | Natural Image | Visual Recognition |
Facial Expression Recognition | 200 | Natural Image | Visual Recognition |
Visual Illusion | |||
Color Constancy | 72 | Synthetic Image | Visual Recognition,Visual Reasoning |
Color Assimilation | 200 | Synthetic Image | Visual Recognition,Visual Reasoning |
Geometrical Relativity | 200 | Synthetic Image | Visual Recognition,Visual Reasoning |
Geometrical Perspective | 120 | Synthetic Image | Visual Recognition,Visual Reasoning |
Color Contrast | 200 | Synthetic Image | Visual Recognition,Visual Reasoning |
Meme Understanding | |||
Meme Vedio Understanding | 200 | Natural Image | Visual Description |
Meme Image Understanding | 200 | Synthetic Image | Visual Description |
Counting | |||
Counting By Visual Prompting | 200 | Natural Image | Visual Recognition,Counting |
Counting By Category | 800 | Natural Image | Visual Recognition,Counting |
Crowd Counting | 200 | Natural Image | Visual Recognition,Counting |
Counting By Reasoning | 200 | Natural Image | Visual Recognition,Counting |
Hallucination | |||
Order Hallucination | 200 | Natural Image | Visual Recognition,Visual Reasoning,Visual Description |
Relation Hallucination | 200 | Natural Image | Visual Recognition,Visual Reasoning,Visual Description |
Attribute Hallucination | 200 | Natural Image | Visual Recognition,Visual Reasoning,Visual Description |
Exist Hallucination | 200 | Natural Image | Visual Recognition,Visual Reasoning |
Image Retrieval | |||
Person Reid | 200 | Natural Image | Retrieval,Multi-Images Analysis |
Sketch2image Retrieval | 200 | Natural Image,Text-rich Image | Retrieval,Multi-Images Analysis |
Face Retrieval | 200 | Natural Image | Retrieval,Multi-Images Analysis |
Handwritten Retrieval | 200 | Text-rich Image | Retrieval,OCR,Multi-Images Analysis |
Vehicle Retrieval | 200 | Natural Image | Retrieval,Multi-Images Analysis |
Image2image Retrieval | 200 | Natural Image | Retrieval,Multi-Images Analysis |
Text2image Retrieval | 200 | Natural Image | Retrieval,Multi-Images Analysis |
Visual Prompt Understanding | |||
Som Recognition | 199 | Natural Image,Visual Mark | Visual Recognition,Visual Reasoning,Visual Localization,Visual Prompting Understanding |
Visual Prompt Understanding | 200 | Natural Image,Visual Mark | Visual Recognition,Visual Reasoning,Visual Localization,Visual Prompting Understanding |
Subtask Name | Sample Num | Visual Input Type | Capability |
Anomaly Detection | |||
Industrial Produce Anomaly Detection | 200 | Natural Image | Visual Recognition,Counting |
Face Mask Anomaly Dectection | 200 | Natural Image | Visual Recognition |
Helmet Anomaly Detection | 200 | Natural Image | Visual Recognition,Visual Localization |
Behavior Anomaly Detection | 200 | Natural Image | Visual Recognition,Multi-Images Analysis |
Traffic Anomaly Detection | 200 | Natural Image | Visual Recognition |
Keypoint Detection | |||
Furniture Keypoint Detection | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Human Keypoint Detection | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Clothes Keypoint Detection | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Animal Keypoint Detection | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Vehicle Keypoint Detection | 92 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Visual Commonsense Reasoning | |||
Whoops | 200 | Synthetic Image | Visual Recognition,Visual Reasoning |
Visual Code | |||
Eqn2latex | 200 | Text-rich Image,Scientific Diagram | OCR,Document Understanding,Expert Knowledge Utilization |
Screenshot2code | 200 | Screenshot Image | Document Understanding,Expert Knowledge Utilization |
Sketch2code | 200 | Scientific Diagram | Document Understanding,Expert Knowledge Utilization |
Image Evaluation Judgement | |||
Image Quality Assessment | 200 | Natural Image | Visual Reasoning |
Lvlm Response Judgement | 200 | Synthetic Image,Chart Image | Visual Reasoning |
Pixel Level Perception | |||
Polygon Localization | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Interactive Segmentation | 141 | Natural Image | Visual Localization,Pixel Perception |
Depth Estimation | 200 | Natural Image | Pixel Perception,3D Perception |
Pixel Recognition | 200 | Natural Image | Visual Recognition,Pixel Perception |
Pixel Localization | 200 | Natural Image | Visual Recognition,Visual Localization,Pixel Perception |
Image Matting | 200 | Natural Image | Pixel Perception |
Multiple Image Analysis | |||
Spot The Similarity | 200 | Natural Image,Synthetic Image | Multi-Images Analysis |
Spot The Diff | 200 | Natural Image | Multi-Images Analysis |
3D | |||
3D Cad Recognition | 200 | 3d Image | Multi-Images Analysis,3D Perception |
3D Indoor Recognition | 200 | 3d Image | Multi-Images Analysis,3D Perception |
Medical Understanding | |||
Anatomy Identification | 200 | Medical Image | Visual Recognition,Expert Knowledge Utilization |
Medical Modality Recognition | 200 | Medical Image | Visual Recognition,Expert Knowledge Utilization |
Other Biological Attributes | 200 | Medical Image | Visual Recognition,Expert Knowledge Utilization |
Disease Diagnose | 200 | Medical Image | Visual Recognition,Expert Knowledge Utilization |
Lesion Grading | 200 | Medical Image | Visual Recognition,Expert Knowledge Utilization |
Cross Image Matching | |||
One Shot Detection | 200 | Natural Image | Visual Localization |
Point Tracking | 200 | Natural Image | Visual Localization |
Single Object Tracking | 200 | Natural Image | Visual Localization |
Visual Captioning | |||
Video Captioning | 200 | Natural Image | Visual Description,Temporal Understanding |
Image Captioning Paragraph | 200 | Natural Image | Visual Description |
Image Captioning | 200 | Natural Image | Visual Description |
Instance Captioning | 200 | Natural Image | Visual Description |
Image Dense Captioning | 197 | Natural Image | Visual Description |
Multiple Instance Captioning | 200 | Natural Image | Visual Description |
Multiple Image Captioning | 200 | Natural Image | Visual Description,Multi-Images Analysis |
Writing Poetry From Image | 200 | Natural Image,Text-rich Image | Visual Description |
Autonomous Driving | |||
Traffic Participants Understanding | 200 | Natural Image | Counting |
Multiple View Image Understanding | 200 | Natural Image | Visual Reasoning,Multi-Images Analysis,Counting |
Traffic Sign Understanding | 200 | Natural Image | Visual Reasoning,Expert Knowledge Utilization |
Temporal Sequence Understanding | 200 | Natural Image | Visual Reasoning,Temporal Understanding |
Traffic Light Understanding | 200 | Natural Image | Visual Recognition |
Models | Parameters | Vision Encoder | LLM |
GPT-4V (Yang et al., 2023a) | - | - | - |
GeminiProVision (Team, 2023a) | - | - | - |
QWen-VL-Plus (Team, 2023c) | - | - | - |
Claude3V-Haiku (Anthropic, 2023) | - | - | - |
LLaVA-Next-34B (Liu et al., 2024a) | 34.8B | CLIP ViT-L/14 | Nous-Hermes-2-Yi-34B |
LLaVA-Next-13B (Liu et al., 2024a) | 13.4B | CLIP ViT-L/14 | Vicuna-v1.5-13B |
LLaVA-Next-7B (Liu et al., 2024a) | 7.1B | CLIP ViT-L/14 | Vicuna-v1.5-7B |
Yi-VL-34B (AI et al., 2024) | 34.6B | CLIP ViT-H/14 | Nous-Hermes-2-Yi-34B |
Yi-VL-6B (AI et al., 2024) | 6.6B | CLIP ViT-H/14 | Yi-6B |
InternVL-Chat-V1.2 (Chen et al., 2023b) | 40B | InternViT-6B | Nous-Hermes-2-Yi-34B |
DeepSeek-VL-7B (Lu et al., 2024) | 7.3B | SAM-B & SigLIP-L | DeekSeek-7B |
Monkey (Li et al., 2023d) | 9.8B | CLIP-ViT-BigHuge | Qwen-7B |
XComposer (Zhang et al., 2023a) | 8B | EVA-CLIP-G | InternLM-7B |
XComposer2 (Dong et al., 2024) | 7B | CLIP ViT-L/14 | InternLM2-7B |
ShareGPT4V (Chen et al., 2023a) | 7.2B | CLIP ViT-L/14 | Vicuna-v1.5-7B |
SharedCaptioner (Chen et al., 2023a) | 8B | EVA-G | InternLM-7B |
mPLUG-Owl2 (Ye et al., 2023b) | 8.2B | CLIP ViT-L/14 | LLaMA2-7B |
LLaVA-v1.5-7B (Liu et al., 2023b, a) | 7.2B | CLIP ViT-L/14 | Vicuna-v1.5-7B |
LLaVA-v1.5-13B (Liu et al., 2023b, a) | 13.4B | CLIP ViT-L/14 | Vicuna-v1.5-13B |
LLaVA-InternLM2-7B (Contributors, 2023c) | 8.1B | CLIP ViT-L/14 | InternLM2-7B |
LLaVA-InternLM-7B (Contributors, 2023c) | 7.6B | CLIP ViT-L/14 | InternLM-7B |
LLaVA-v1.5-7B-Xtuner (Contributors, 2023c) | 7.2B | CLIP ViT-L/14 | Vicuna-v1.5-7B |
LLaVA-v1.5-13B-Xtuner (Contributors, 2023c) | 13.4B | CLIP ViT-L/14 | Vicuna-v1.5-13B |
LLaMA-Adapter-v2 (Gao et al., 2023) | 7B | CLIP-ViT-L/14 | LLaMA-7B |
VisualGLM (Ding et al., 2021) | 8B | EVA-CLIP | ChatGLM-6B |
CogVLM (Wang et al., 2023) | 17B | EVA-CLIP-E | Vicuna-v1.5-7B |
TransCore-M (Contributors, 2023b) | 13.4B | CLIP ViT/L-14 | PCITransGPT-13B |
RBDash-v1 (RBDash-Team, 2023) | 13.4B | CLIP ViT-L/14 | Vicuna-v1.5-13B |
BLIP2 (Li et al., 2023b) | 12.1B | EVA-CLIP ViT-G/14 | Flan-T5-XXL |
QWenVL (Bai et al., 2023) | 9.6B | CLIP ViT-G/16 | QWen-7B |
Task Abbreviation | Task Name | Prompt Example for Single Image LVLMs | Prompt example for Multiple Image LVLMs | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||
FR |
HR |
I2IR |
IC |
Task Abbreviation | Task Name | Prompt Example for Single Image LVLMs | Prompt example for Multiple Image LVLMs | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ME | mevis |
PRe | person reid |
PT | point tracking |
Task Abbreviation | Task Name | Prompt Example for Single Image LVLMs | Prompt example for Multiple Image LVLMs | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
S2IR |
SD | spot the diff |
SS |
TA |
TL |
Task Abbreviation | Task Name | Prompt Example for Single Image LVLMs | Prompt example for Multiple Image LVLMs | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
TL |
TO | temporal ordering |
T2IR |
3DCR |
3DIR |
VR | vehicle retrieval |
VC | video captioning |
附录 G案例研究
Case Figure | Meta-task | Subtask | GPT-4V | GeminiProVision | InternVL-Chat |
Fig. A5 | Visual Recognition | Landmark Recognition | |||
Fig. A6 | Object Localization | Camouflaged Object Detection | |||
Fig. A7 | Pixel-level Recognition | Image Matting | |||
Fig. A8 | OCR | Handwritten Text Recognition | |||
Fig. A9 | Visual Prompt Understanding | Visual Prompt Understanding | |||
Fig. A10 | Retrieval | Sketch to Image Retrieval | |||
Fig. A11 | Counting | Counting by Reasoning | |||
Fig. A12 | Keypoint Detection | Human Keypoint Detection | |||
Fig. A13 | Action Recognition | Sign Language Recognition | |||
Fig. A14 | Visual Hallucination | Exist Hallucination | |||
Fig. A15 | Anomaly Detection | Industrial Produce Anomaly Detection | |||
Fig. A16 | Image-to-Image Translation | Jigsaw Puzzle Solving | |||
Fig. A17 | Visual Summary | Image Captioning Paragraph | |||
Fig. A18 | Intelligence Quotient Test | Ravens Progressive Matrices | |||
Fig. A19 | Emotional Quotient Test | Scene Emotion Recognition | |||
Fig. A20 | Visual Grounding | Referring Detection | |||
Fig. A21 | Visual Commonsense Reasoning | Whoops | |||
Fig. A22 | Chart, Doc Understanding | Clock Reading | |||
Fig. A23 | Relation Reasoning | Scene Graph Recognition | |||
Fig. A24 | Meme Understanding | Meme Image Understanding | |||
Fig. A25 | Multi-Image Analysis | Spot the Diff | |||
Fig. A26 | Temporal Understanding | Temporal Ordering | |||
Fig. A27 | Cross-Image Matching | Single Object Tracking | |||
Fig. A28 | Visual Coding | Equation to Latex | |||
Fig. A29 | Visual Illusion | Color Constancy | |||
Fig. A30 | Image Evaluation Judgement | LVLM Response Judgement | |||
Fig. A31 | 3D Perception | 3D CAD Recognition | |||
Fig. A32 | Emodied Agent | Navigation | |||
Fig. A33 | Medical Understanding | Medical Modality Recognition | |||
Fig. A34 | Autonomous Driving | Traffic Light Understanding | |||
Fig. A35 | GUI Navigation | Installation | |||
Fig. A36 | Discipline Knowledge Reasoning | Art and Design |
在本节中,我们对 GPT-4V、GeminiProVision 和 InternVL-Chat 在 MMT-Bench 中的各种元任务上所犯的错误类型进行案例研究分析。 我们将错误分为以下六类:
附录 H MMT-Bench 与其他 OCR 相关任务基准的比较
Words Number | Tokens Number | |||||||||||
Benchmark | Sample Num | Task Type | Average | Min | Middle | Max | std | Average | Min | Middle | Max | std |
MME (Fu et al., 2023) | 40 | 1 | 2.5 | 1 | 2 | 5 | 1 | 3.9 | 1 | 3 | 8 | 1.6 |
MMBench (dev+test) (Liu et al., 2023c) | 608 | - | 7.3 | 1 | 6 | 54 | 7 | 8.3 | 1 | 6 | 78 | 9.3 |
Tiny-LVLM-eHub (Shao et al., 2023) | 600 | 1 | 1 | 1 | 1 | 1 | 0 | 2.2 | 1 | 2 | 8 | 1.1 |
MMT-Bench (Ours) | 600 | 4 | 14.8 | 1 | 1.5 | 103 | 22.7 | 20.4 | 1 | 5 | 150 | 31.4 |
为了支持之前的评估基准在 OCR 任务中遭受文本稀缺的说法,我们在表中对来自不同基准的 OCR 相关样本进行了比较分析。 A11。 结果表明,MME 和 Tiny-LVLM-eHub 等数据集的文本长度相对较短,变化有限。 此外,以前的 OCR 任务主要集中于直接从给定场景或裁剪图像输出文本。 相比之下,我们提出的 MMT-Bench 基准引入了几个新任务,例如字体识别、手写识别、手写公式识别以及基于文档的问答和图表问答。 这些新增内容显着增加了评估 OCR 任务模型性能的挑战。 与之前的基准相比,MMT-Bench的OCR样本的平均字数和词符数是MME的5倍以上,是MMBench的2倍以上。 此外,MMT-Bench 包含更高比例的长文本样本,且文本长度范围更广。 这证明了MMT-Bench在解决OCR任务中文本稀缺问题方面的优越性,为综合评估多模态算法在OCR相关任务上的性能提供了更可靠的基准。
I.1 元数据
Keys | Example 1 | Example 2 |
image path | /path/to/image | /path/to/image |
data source | animals90 from Kaggle | ReasonSeg |
subtask name | Animal Recognition | Reason Seg |
meta-task name | Visual Recognition | Visual Grounding |
specific question template | What category of animal is shown in the picture? | Please provide the bounding box coordinates for the described object or area using the format [x1, y1, x2, y2]. QUESTION:{Referring Expression} |
answer | rat | [801, 440, 1554,956] |
visual prompt | Natural Image | Natural Image |
capabilities | Visual Recognition | Visual Reasoning,Visual Localization |
(specific) category space | squirrel, hamster, bird, dog, cat… | - |
(specific) referring expression | - | the objects that can protect the snail and prevent it from getting injured |