MMT-Bench:用于评估面向多任务 AGI 的大型视觉语言模型的综合多模态基准

Kaining Ying    Fanqing Meng    Jin Wang    Zhiqian Li    Han Lin    Yue Yang    Hao Zhang    Wenbo Zhang    Yuqi Lin    Shuo Liu    Jiayi Lei    Quanfeng Lu    Runjian Chen    Peng Xu    Renrui Zhang    Haozhe Zhang    Peng Gao    Yali Wang    Yu Qiao    Ping Luo    Kaipeng Zhang    Wenqi Shao
摘要

大型视觉语言模型 (LVLM) 在视觉对话和实体导航等通用多模式应用中显示出显着的进步。 然而,现有的多模态评估基准涵盖了有限数量的测试基本能力的多模态任务,在跟踪 LVLM 开发方面存在不足。 在这项研究中,我们提出了 MMT-Bench,这是一个综合基准,旨在评估需要专业知识和深思熟虑的视觉识别、定位、推理和规划的大规模多模态任务中的 LVLM。 MMT-Bench 包含31,325精心策划的来自各种多模式场景(例如车辆驾驶和具体导航)的多选视觉问题,涵盖32核心元任务和162多模态理解中的子任务。 由于其广泛的任务覆盖范围,MMT-Bench 可以使用任务图来评估 LVLM,从而促进域内和域外任务的发现。 涉及30 LVLM(例如专有的 GPT-4V、GeminiProVision 和开源 InternVL-Chat)的评估结果强调了 MM​​T-Bench 带来的重大挑战。 我们预计 MMT-Bench 将激励社区开发下一代多模态基础模型,旨在实现通用多模态智能。

机器学习、ICML

1简介

近年来,大视觉语言模型(LVLM)(Zhang 等人,2023a;Yang 等人,2023a;Liu 等人,2023b)已成为推进人工智能的强大工具,展示了显着的成果在视觉对话、视频分析和文档理解等各个领域取得进展。 在各个领域挖掘的多样化、高质量的指令微调数据的驱动下,LVLM 将继续向多任务 AGI 迈进(Team,2023a;Bai 等人,2023) 正如《AGI的等级》(Morris等人,2023)中指出的,任务的广度(通用性)是不同等级AGI的基本标准。 多任务 AGI 模型可以像人类一样熟练地执行跨不同领域的广泛任务,这可能会彻底改变个性化教育(Latif 等人,2023)和医疗诊断( Singhal 等人,2023) 因此,建立一个全面的评估基准来跟踪多任务AGI的发展至关重要。

然而,LVLM 的评估明显滞后于其发展(Morris 等人,2023;Yue 等人,2023b;Liu 等人,2024b) 一系列工作试图通过提出各种多模式评估基准来弥补这一差距。 例如 LVLM-eHub (徐等人, 2023)、MMBench (刘等人, 2023c)、MME (傅等人, 2023) 和 SEED-Bench (Li 等人, 2023a),提出了多模态能力的维度和相应的测试样本。 然而,这些基准测试在测试视觉识别和文本稀缺 OCR 等基本功能时,对多模式任务的覆盖范围有限。 因此,他们无法满足任务广度的要求(Morris等人,2023) 此外,最近的 LVLM 在这些基准测试中继续表现出色。 例如,InternLM-XComposer2 (Dong 等人, 2024) 实现了 2242.7/280079.6/100 分别在 MME 和 MMBench 上的整体性能。 其他作品,如MathVista (Lu 等人, 2023)和MMMU (Yue 等人, 2023a),侧重于学科知识理解和推理,但仅限于视觉问题科学图表图像,限制了它们对多任务 AGI 进行基准测试的广度。

Refer to caption
图1: MMT-Bench 的可视化。 我们的 MMT-Bench 由 32 元任务(中环)组成,这些元任务被分解为 162 子任务(外环)。 对于每个元任务,我们表示其中子任务的数量,并说明一对图像和问题的一个示例(参见表A2到表A4中的任务层次结构) > 附录)。 MMT-Bench 可以足够全面地评估 LVLM 的多任务性能。

为了应对这一挑战,我们引入了 MMT-Bench,这是一个新的基准,旨在全面评估 LVLM 在多模态多任务理解方面的能力。 MMT-Bench 的广度体现在三个方面。 首先,MMT-Bench 经过精心策划,包含 32K 个多项选择视觉问题,涵盖 32 核心元任务和总共 162 子任务(图 1)。 1),比MM-Bench (Liu等人,2023c)8.1倍。 其次,它涵盖13图像类型,例如自然场景、合成图像、深度图、富含文本的图像、绘画、屏幕截图、点云、医学图像等(图2)。 这种多样性要求模型有足够的能力来解释各种视觉输入。 第三,MMT-Bench跨越车辆驾驶、GUI导航、嵌入式AI等多模态场景,测试14种多模态能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解、等人(图2)。

我们在各种输入模式下评估30公开可用的 LVLM,以获得最佳评估性能。 我们的研究结果凸显了 MMT-Bench 带来的重大挑战。 例如,GPT-4V 在除视觉识别之外的所有子任务和子任务中仅获得 62.0/10055.6/100 总分分别表明多任务 AGI 的改进空间很大。 由于多模态任务的广泛覆盖,MMT-Bench 能够使用任务图来评估 LVLM。 这有助于发现域内和域外任务,为多模式商业应用和增强 LVLM 的持续努力提供有价值的见解。 我们将调查结果总结如下:

表格1: MMT-Bench 与现有评估基准的比较。 与其他基准相比,MMT-Bench 包含大量样本和多模态任务。 I、T、V、P分别代表图像、文本、视频、点云。
Benchmark Data Collection
# Sample # Meta-task # Task # Modality Source Answer Type
SEED-Bench (Li et al., 2023a) 19K 12 12 I + T + V Annotated Multi-Choice
MMBench (Liu et al., 2023c) 3K 2 20 I + T Repurposed Multi-Choice
MM-VET (Yu et al., 2023) 0.2K 6 N/A I + T Repurposed Multi-Choice
MMMU (Yue et al., 2023b) 11.5K 6 30 I + T Annotated Multi-Choice/Open
Tiny LVLM-eHub (Shao et al., 2023) 2.1K 5 42 I + T Repurposed Multi-Choice/Open
MMT-Bench 31K 32 162 I + T + V + P Repurposed Multi-Choice
  • 开源模型InternVL-chat在MMT-Bench中占据领先地位,超越了QWen-VL-Plus、GPT-4V、GeminiProVision等其他闭源模型。

  • 162 多模态任务进行的全面错误分析表明,表现最好的 LVLM(例如 InternVL-chat、GPT4V 和 GeminiProVision)主要容易出现感知、推理和知识错误。

  • 分类分析表明,当前的 LVLM 在与视觉识别和描述相关的域内任务中表现良好,但在与定位和像素感知相关的域外任务中表现不佳。

  • 不进行指令调优的 BLIP2 甚至优于大多数由数百万指令跟踪数据调优的 LVLM,这意味着在某些任务中使用数据进行指令调优甚至会损害其他任务的泛化。

  • 某些任务通过特定的提示方法表现出改进的性能,例如多图像和坐标相关的任务,以及涉及视觉参考提示的任务。 然而,大多数模型并没有通过视觉提示表现出改进的性能,这表明了未来增强的潜在领域。

  • LLaVA-v1.5 和 LLaVA-v1.5-Xtuner 的模型性能随着大小(7B 至 13B)的增加而显着提高。 将大语言模型从InternLM升级到InternLM2,也增强了LLaVA的性能。

总的来说,这项工作的贡献有三方面。 i) 我们为多模式多任务理解建立了一个名为 MMT-Bench 的新评估基准,使我们能够衡量多任务 AGI 道路上的进展。 ii) 我们在 MMT-Bench 上评估了各种公开可用的 LVLM,发现当前的 LVLM(包括 InternVL-Chat、GPT-4V 和 GeminiProVision)在多任务智能方面实现了普通的性能。 iii) 我们通过在基于 MMT-Bench 构建的任务图上评估 LVLM 来进行任务分析,从而促进相对于当前 LVLM 的域内和域外任务的发现。 我们预计 MMT-Bench 将激励社区突破 LVLM 研究和开发的界限,推动我们更接近实现真正的智能多模式系统。 MMT-Bench 在 https://github.com/OpenGVLab/MMT-Bench 上开源。

Refer to caption
图2: 我们的数据收集管道的图示。 首先,给定任务名称,我们从互联网上检索其相关数据集。 然后我们将它们整理成统一的数据格式——元数据。 最后,我们使用手动设计的规则或 ChatGPT 从元数据中生成带有选择和答案的问题。 我们的基准涵盖不同图像类型的能力评估。

2相关工作

LVLM。 随着大语言模型不断取得令人瞩目的成就(Bai 等人,2023;Team,2023b;Touvron 等人,2023a, b;Zheng 等人,2023;Chung 等人,2022),学术重点越来越转向大型视觉语言模型(LVLM)的探索和开发,以增强模型的多模态理解和生成能力。 一些著名的开源 LVLM,例如 mPLUG-Owl2 (Ye 等人, 2023b)、LLaVA (Liu 等人, 2023b) 和 LLaMA-Adapter (高等人,2023;张等人,2023b)以大语言模型为骨干,通过大语言模型处理视觉特征,最终实现文本与视觉的创新融合。 此外,Gemini (Team,2023a)和GPT-4V (Yang等人,2023b)等闭源模型在众多任务中表现出了显着的成果,做出了开创性的贡献。 我们的目标是通过在大规模多模态任务上测试 LVLM 及其功能,对它们进行深入、全面的探索。

LVLM评估。 最近,LVLM 在处理许多视觉语言任务方面表现出了卓越的能力,这使得之前的单任务基准测试(Antol 等人,2015;Hudson & Manning,2019;Krishna 等人,2017;Lin 等人,2014; Marino 等人, 2019) 不足以对当前 LVLM 进行综合评估。 为此,当前的LVLM评估基准旨在对LVLM的整体推理能力提供相对全面的评估,例如OwlEval (Ye 等人, 2023a)、LVLM-eHub (Xu 等人) , 2023), SEED-Bench (李等人, 2023a), LAMM (尹等人, 2023), MM-Vet (Yu等人, 2023) 和 MMBench (刘等人, 2023c) 然而,这些基准仅涵盖小范围的多模式任务和视觉语言技能,使得它们不够全面,无法评估多任务 AGI 能力。 此外,最近的研究还提出了需要专家级领域知识的 LVLM 基准,例如 Mathvista (Lu 等人, 2023) 和 MMMU (Yue 等人, 2023a) 相比之下,我们提出的 MMT-Bench 涵盖了广泛的多模态推理能力,具有来自各种模态的足够测试样本,如表 1 所示,这需要专业知识和深思熟虑的视觉识别、定位、推理和规划。 我们的 MMT-Bench 对当前最先进的 LVLM 提出了重大挑战。

多任务分析。 表征各种任务并建立任务间关系是多任务分析的有效手段(Ilharco 等人, 2023; Achille 等人, 2019; Zamir 等人, 2018; Wallace 等人, 2021),其中在元学习和迁移学习等领域有着广泛的应用。 Taskonomy (Zamir 等人,2018) 中进行了大量研究。 它利用迁移学习对视觉任务空间的结构进行建模,从而利用视觉任务之间的互连来避免学习中的冗余。 Task2Vec (Achille 等人, 2019) 将渔民信息提取为任务向量,用于元学习。 在我们的论文中,由于收集了大量的任务数据,我们在任务图上评估了 LVLM,并得出了当前 LVLM 具有挑战性的任务。

3 MMT-长凳

在本节中,我们将描述如何在第 2 节中构建任务层次结构。 3.1 以及秒中数据收集的管道。 3.2

3.1任务

分层任务结构。 我们利用分层结构来包含尽可能多的多模式任务来构建 MMT-Bench。 首先,所有合著者通过头脑风暴提出了多模式理解的元任务。 然后,我们通过重复数据删除和过滤重要任务来收集32元任务,如图1所示。 其次,我们将每个元任务分解为多个子任务。 子任务按照三个标准保留在 MMT-Bench 中。 i) 子任务是否考察基本的多模式能力。 ii) 子任务是否挑战当前的 LVLM。 iii) 子任务的测试样本是否可以公开访问。 选择后,MMT-Bench包含162个子任务,比之前包含最多任务的TinyLVLM-eHub大3.8(Shao等人,2023). 1 提供了 MMT-Bench 与之前基准测试的详细比较。 我们还在附录的表A2中展示了整个层次结构。

3.2数据收集

我们设计了一个高效的管道(见图2)来为每个子任务构建多选视觉问题评估数据,数据收集由数十位专门从事人工智能的共同作者完成。

数据集搜索。 我们根据子任务的名称,使用 Google、Paper With Code、Kaggle 和 ChatGPT 等各种来源对相关数据集进行全面搜索。 下载数据集后,我们仔细评估它们是否适合评估子任务,确保可用性和相关性。 虽然大多数任务都有多个可用数据集,但少数任务可能只有一个可公开访问的数据集。

元数据构建。 我们定义一个统一的格式,即元数据,来整理下载的数据集。 它能够进一步生成视觉问题和答案。 每个元数据样本都由图像和元信息组成。 元信息(见图2)包括生成评估问题和答案所需的信息,还包括所需能力的手动注释和视觉提示的类型(即输入图像)。 为了评估效率,在每个任务中,我们通过随机采样将最大样本数保持在200,并且每个数据集包含相同数量的样本。

问答生成。 对于每个子任务,我们都会生成多项选择(根据任务最多有八个选择)视觉问题以及来自元数据的选择和答案。 具体来说,根据具体任务,我们手动设计规则或使用ChatGPT配合精心设计的提示来实现高效、高质量的生成。 例如,在 sketch2image 检索中,我们使用相应的图像作为真实答案,并通过从元数据中随机采样其他图像来生成其他选择。 在视频字幕中,我们使用 ChatGPT 来编写令人困惑的错误选择。

数据集统计。 MMT-Bench 包含 31,325 精心策划的多项选择问题,以及 13 输入图像类型,例如自然场景、合成图像、富含文本的图像、医学图像等(见图 1)。 2),涵盖用于多任务多模式理解的32核心元任务和162子任务。 与之前解决有限图像类型和技能的 LVLM 基准(Yue 等人,2023a;Xu 等人,2023)相比,MMT-Bench 中的问题跨越了多种多模态场景,例如 GUI 导航和文档理解、测试14种能力,包括视觉识别、定位、推理、OCR、计数、3D感知、时间理解等,如图2所示。 这些功能确保 MMT-Bench 满足评估多任务 AGI 的任务广度要求。

表2: 总结了 32 个元任务中 30 个 LVLM 的定量结果,其中 R¯ 代表平均排名。 准确性是衡量标准,总分是针对所有子任务计算的,不包括视觉识别 (VR),如 所示。 每个元任务的最大值以粗体显示。 为了简洁起见,元任务进行了缩写,完整术语在第 2 节中。附录的C
Model Overall R¯ VR Loc OCR Count HLN IR 3D VC VG DU AR PLP I2IT RR IQT Emo
Overall R¯ VI MemU VPU AND KD VCR IEJ MIA CIM TU VP MedU AUD DKR EA GN
Frequency Guess 31.7 26.1 30.0 28.2 30.4 28.2 43.4 29.9 26.5 28.2 29.1 37.6 30.0 29.4 30.8 33.5 18.0 30.1
32.2 25.9 52.1 32.8 29.3 44.4 33.7 27.0 30.0 46.5 28.5 29.1 29.5 30.9 29.7 29.4 28.0 29.0
Random Guess 28.5 30.0 27.1 28.1 27.2 25.0 41.6 24.3 25.5 25.0 24.8 30.3 25.4 26.6 21.2 33.4 10.5 25.4
28.9 29.9 50.8 25.5 31.4 36.5 32.2 28.0 25.0 48.5 26.8 27.0 28.8 27.8 26.8 25.4 27.5 24.4
InternVL-Chat-v1.2-34B 63.4 5.7 81.3 59.4 60.5 66.4 82.4 56.3 45.5 82.3 49.4 68.3 52.6 37.4 32.8 55.0 84.0 48.7
58.2 5.7 61.5 62.5 58.2 57.0 62.2 76.0 31.0 82.8 56.8 45.2 41.8 71.8 57.8 49.4 74.5 41.2
Qwen-VL-Plus 62.3 6.7 82.6 55.3 65.6 61.1 69.9 40.7 46.5 86.5 43.6 77.3 53.4 43.1 37.8 53.0 84.5 41.6
56.6 6.8 50.3 61.0 67.5 58.8 55.3 76.5 31.8 81.5 61.3 45.5 33.7 73.3 59.5 46.8 85.0 32.6
GPT-4V 62.0 8.3 85.3 55.6 68.0 51.6 69.6 44.9 42.0 80.3 25.0 69.8 47.7 48.2 31.8 52.5 80.0 45.1
55.5 8.6 47.9 61.0 60.2 51.4 53.6 73.0 43.4 70.2 55.2 44.6 53.3 74.0 55.6 53.4 80.9 39.7
GeminiProVision 61.6 8.3 84.7 43.6 59.5 56.4 65.9 68.4 45.2 80.1 33.0 71.6 57.4 40.3 31.5 58.5 11.0 55.2
55.1 8.5 47.5 75.8 50.9 47.4 49.5 86.5 35.0 70.2 33.3 40.5 46.0 82.6 59.5 49.2 74.5 33.4
LLaVA-NEXT-34B 60.8 7.5 76.7 61.0 64.1 66.3 70.1 38.8 48.5 85.9 56.2 69.1 50.6 41.9 22.8 54.9 76.5 50.3
56.3 7.5 57.8 55.5 57.2 61.2 62.7 75.0 22.2 77.8 43.0 45.4 40.2 61.9 55.1 48.1 80.0 41.4
XComposer2 55.7 11.7 75.3 47.9 43.9 51.0 69.5 32.4 40.5 73.7 42.6 62.0 46.3 43.9 31.5 50.5 8.0 53.6
50.0 11.7 52.6 71.2 56.1 56.2 41.5 83.0 43.8 80.8 61.2 36.6 36.3 53.5 48.8 43.8 50.5 29.4
BLIP2 54.8 12.8 75.1 54.1 48.1 29.8 66.1 27.4 47.8 78.7 33.5 43.0 51.1 46.1 28.2 53.0 14.0 43.1
49.1 12.8 55.6 76.2 39.8 43.7 60.2 77.0 29.8 62.8 73.0 42.7 43.2 60.1 44.6 37.0 80.5 33.4
Yi-VL-34B 54.2 14.3 74.6 47.0 58.0 59.4 65.8 28.8 38.8 74.0 41.5 56.4 40.4 38.4 19.5 51.7 68.5 39.7
48.6 14.3 51.3 56.2 61.2 52.4 49.5 71.5 25.5 66.0 48.0 39.2 32.0 59.6 48.2 44.3 57.0 32.4
Monkey-Chat 53.4 15.5 79.0 40.1 51.0 43.6 63.1 26.8 46.5 68.9 27.5 51.1 49.3 32.2 29.5 61.8 11.0 45.1
46.0 15.8 55.3 69.5 43.6 44.6 36.3 85.5 26.0 58.8 61.7 36.8 33.3 68.0 43.6 38.1 46.0 29.8
DeepSeek-VL-7B 53.2 15.0 75.6 42.0 61.1 44.5 60.6 30.5 47.2 69.1 38.4 51.9 44.8 38.3 23.5 48.8 37.0 43.8
46.5 15.2 47.7 59.8 53.5 45.4 41.0 41.0 38.8 35.0 67.2 33.1 30.7 69.7 48.8 36.4 67.5 36.8
Yi-VL-6B 53.2 14.7 73.5 49.4 53.1 56.2 63.9 26.0 43.5 63.4 42.1 55.2 43.8 35.3 26.8 48.8 47.0 46.1
47.5 14.5 55.8 54.5 49.2 53.0 51.8 65.5 34.2 52.0 43.3 37.6 37.0 60.6 46.9 40.2 48.0 34.8
LLaVA-NEXT-13B 53.0 15.0 74.0 35.6 51.8 59.2 63.6 32.7 50.0 75.0 44.6 53.6 46.5 34.0 26.2 50.0 50.0 44.5
46.8 14.9 57.5 55.0 32.2 49.6 38.9 47.0 18.0 36.5 59.8 38.9 22.5 55.8 55.7 38.5 70.0 41.0
TransCore-M 52.7 13.1 73.6 40.5 50.4 54.5 71.9 27.5 45.0 75.6 35.1 45.3 46.9 38.3 25.0 53.2 15.0 46.3
46.9 12.9 55.6 76.8 51.9 43.7 38.6 85.5 34.2 52.8 65.8 29.7 28.8 61.1 46.5 38.4 39.5 35.6
QWen-VL-Chat 52.5 16.0 77.5 33.7 46.9 46.7 63.9 27.5 45.0 73.0 26.5 51.5 50.9 32.7 30.5 57.4 13.5 45.4
45.4 16.3 50.9 74.2 42.4 40.2 35.9 86.0 30.0 49.2 58.3 37.3 30.8 67.1 45.4 35.6 55.0 30.2
Claude3V-Haiku 52.2 17.7 74.3 44.8 54.4 51.1 63.6 34.6 38.2 67.6 26.9 69.8 46.2 35.5 22.8 50.0 59.5 35.2
46.4 17.7 42.9 53.8 43.2 41.2 53.3 70.5 31.5 34.8 52.5 35.9 34.2 62.7 34.1 40.4 54.5 35.1
XComposer 52.1 17.1 75.4 40.4 44.1 39.9 66.5 49.7 47.0 72.1 27.2 36.6 47.9 39.6 24.5 50.2 14.0 45.9
45.6 17.3 53.4 63.8 40.6 43.4 42.3 78.0 29.0 66.2 52.3 33.1 28.3 55.6 40.8 39.3 38.5 34.2
mPLUG-Owl2 52.0 17.3 76.5 45.8 44.5 47.6 63.4 27.6 45.2 66.6 33.0 42.4 45.2 41.6 25.5 52.0 18.0 42.0
45.0 17.5 58.5 59.0 40.1 49.4 32.9 85.5 30.0 55.0 57.7 31.9 27.3 63.4 45.5 38.1 35.0 27.8
RBDash-v1-13B 51.8 15.7 72.2 42.2 53.6 51.6 66.6 26.3 40.8 75.5 36.9 48.1 47.1 38.3 22.5 55.9 14.0 43.4
46.1 15.3 57.1 67.5 51.4 45.7 33.2 78.0 39.0 32.0 64.2 31.6 25.5 59.3 46.3 38.1 53.5 32.4
LLaVA-v1.5-13B 51.7 15.3 73.8 38.8 51.8 55.1 65.8 27.2 39.8 70.4 37.4 45.7 46.6 37.6 28.0 58.2 13.5 45.3
45.7 15.2 58.1 66.0 43.9 48.3 31.4 79.0 35.8 28.5 62.5 33.3 27.5 58.6 46.6 39.4 40.5 37.5
CogVLM-Chat 51.6 17.5 77.7 24.7 48.5 49.8 66.0 26.1 42.2 69.8 28.8 49.1 46.3 33.2 23.8 61.6 14.0 50.3
44.2 17.9 52.4 75.5 39.8 43.4 28.2 82.0 28.0 70.8 45.8 35.5 28.3 65.9 44.9 36.9 48.0 29.9
ShareGPT4V-7B 51.5 16.4 74.2 36.0 47.8 50.9 62.4 27.8 45.2 71.6 35.4 47.9 46.2 39.2 21.8 59.8 14.0 44.3
45.1 16.4 54.5 70.5 47.1 48.2 26.3 83.0 27.8 38.0 64.3 32.1 30.0 60.8 46.1 38.9 42.0 28.9
LLaVA-NEXT-7B 51.1 18.1 73.3 29.5 52.0 56.8 59.9 28.7 43.2 69.8 37.0 49.7 47.9 32.6 22.8 49.0 47.5 48.1
44.6 18.0 57.8 54.0 38.5 44.3 34.6 42.5 18.8 32.5 67.8 39.1 23.3 55.5 53.5 37.0 65.0 31.6
LLaVA-v1.5-13B-XTuner 51.1 16.8 72.5 40.7 46.8 54.1 66.5 26.4 47.5 68.8 35.6 47.0 44.2 38.3 26.0 52.4 14.0 51.0
45.1 16.5 54.4 66.5 47.9 52.0 28.8 82.0 39.2 37.0 56.8 28.3 28.3 49.1 44.4 37.3 33.5 40.9
LLaVA-InternLM2-7B 50.8 17.5 73.3 38.9 49.5 51.8 67.8 27.7 49.5 66.4 36.9 37.7 43.7 35.1 14.2 58.0 0.0 51.1
44.4 17.4 52.3 62.5 45.1 57.2 35.2 83.0 34.2 55.8 58.2 26.8 18.5 57.8 45.1 33.7 35.5 35.2
LLaVA-v1.5-7B-XTuner 50.2 19.5 72.5 41.1 46.0 49.9 62.1 26.0 45.5 66.4 35.3 42.8 45.8 42.5 25.5 53.9 11.5 44.2
43.9 19.3 60.1 56.5 42.6 47.2 28.4 80.5 32.2 41.2 63.2 29.9 24.2 52.5 43.4 37.2 32.0 30.5
SharedCaptioner 49.9 19.6 72.8 41.8 47.8 46.2 63.1 27.0 44.2 61.9 27.0 39.5 46.7 33.5 25.0 59.5 14.5 39.9
43.2 19.5 55.1 53.8 45.4 38.3 33.6 82.5 20.2 57.8 56.8 32.6 28.7 59.4 44.7 38.4 45.0 29.6
LLaVA-InternLM-7B 49.7 19.6 70.1 38.7 47.6 46.0 62.0 25.5 42.0 65.0 26.5 43.9 45.6 38.3 25.0 52.4 14.0 47.0
43.9 19.3 57.5 58.2 45.6 46.5 33.2 75.5 33.0 57.0 59.7 28.0 27.3 52.0 42.2 38.1 46.5 37.6
LLaVA-v1.5-7B 49.5 20.3 72.8 34.3 45.0 47.5 61.6 26.1 44.8 68.1 34.0 40.8 46.6 36.0 22.2 58.0 12.5 42.5
43.1 20.3 57.6 70.5 33.3 49.1 31.6 81.0 27.8 37.5 62.3 31.7 27.5 56.8 45.1 35.6 42.5 20.4
LLaMA-Adapter-v2-7B 40.4 27.5 62.3 32.5 35.0 30.1 46.5 24.1 33.8 34.8 25.2 30.2 43.9 33.1 18.2 44.9 11.0 36.0
34.1 27.4 36.4 40.5 33.8 30.4 34.9 71.0 33.2 42.2 35.8 31.1 25.8 52.0 29.1 32.0 25.0 29.9
VisualGLM-6B 38.6 27.1 55.0 33.1 33.8 31.1 39.2 26.0 36.8 40.5 31.1 39.1 39.2 32.4 26.8 43.8 14.0 33.1
33.9 27.0 28.9 44.8 27.1 34.5 35.2 65.0 28.0 35.8 48.2 30.8 23.5 44.0 26.2 29.6 37.5 21.1

4实验

在本节中,我们对 MMT-Bench 上的 30 个 LVLM 进行综合评估。 秒。 4.1介绍了所选的LVLMs库和评估方法。 第 2 节提供了每个元任务的定量评估。 4.2 我们在第 2 节中介绍了使用不同提示方法的特定任务的分析。 4.3 此外,我们在第 2 节中对三个代表性 LVLM 进行了误差分析。 4.4

4.1评估详情

选定的 LVLM。 为了完整性,我们测试了 30 个参数不同的代表性 LVLM、视觉编码器(InternVL (Chen 等人, 2023b)、EVA-CLIP-ViT (Sun 等人, 2023) 、CLIP-ViT (Radford 等人, 2021))、大语言模型 (QWen (Bai 等人, 2023)、InternLM (Team, 2023b) 、LLaMA (Touvron 等人, 2023a, b)、Vicuna (Zheng 等人, 2023)、Flan-T5 (Chung 等人, 2022))。 详情请参见附录D.1

评价方法。 在 MMT-Bench 中,样本采用多项选择格式,例如“这是什么?” 选项:(A) 狗 (B) 猫'。 为了从 LVLM 的响应中提取选择,我们遵循 OpenCompass 的协议(贡献者,2023a):1)检查响应是否包含选项字母(A/B) ); 2)检查选项内容(‘dog’/‘cat’); 3)使用ChatGPT进行提取。 如果这些步骤失败,我们将模型选择设置为选项字母Z以避免随机分配(Yue等人,2023a) 准确性是主要指标。

4.2总体评价

本部分在 MMT-Bench 上与随机选择频繁选择基线一起评估 LVLM。 我们在表 2 中报告了所有元任务的总体得分以及每个元任务的最佳性能。 每个子任务的详细结果在第 2 节中提供。附录的L 研究了所有任务的各种提示设置。 我们将主要发现总结如下。

i) MMT-Bench 的综合挑战: 该基准测试提出了重大挑战,即使是 InternVL-Chat、GPT-4V 和 GeminiProVision 等高级模型也分别只能达到 63.4%、62.0% 和 61.6% 的准确率,这表明还有很大的改进空间。 值得注意的是,除去其最强的领域视觉识别(VR)(得分为 84.7%),GeminiProVision 的整体表现下降至 55.1%,低于令人满意。 MMT-Bench 的不同任务维度需要广泛的功能才能实现最佳性能,这强调了基准测试的广泛而严格的标准。 ii) 开源 LVLM 和闭源 LVLM 之间的比较。 大多数开源模型的性能落后于闭源模型。 然而,领先的开源 LVLM InternVL-Chat-V1.2-34B 已展现出卓越的性能,在整体精度方面优于 GPT-4V 和 GeminiProVision 等复杂的专有模型。 这一成就表明,通过扩展模型大小、优化训练方案和利用各种高质量数据,开源 LVLM 可以媲美甚至超过先进专有模型的能力。 它给开源社区带来了自豪感,并为学术界和工业界提供更多高性能且更具成本效益的解决方案铺平了道路。 iii) 大语言模型和模型缩放的影响。 如表 2 所示,随着 llava-v1.5 和 llava-v1.5-tuner 大小的增加(7B 到 13B),模型性能显着提高。 将大语言模型从 internlm 升级到 internLM2 也增强了 LLaVA 的性能,这表明更大或改进的大语言模型可以在训练数据和视觉编码器不变的情况下提高多任务性能。 iv) 不同元任务的模型性能。 大多数 LVLM 在视觉识别 (VR) 任务和视觉字幕 (VC) 方面表现出色,突出了 LVLM 识别对象“是什么”并描述图像中显示的内容的能力。 然而,对于细粒度的感知任务(定位、像素级感知等)或复杂的推理任务(图像评估判断),大多数 LVLM 都举步维艰。 v) BLIP2 在无需进行指令跟踪训练的开源模型中表现出色,优于使用大量指令跟踪数据训练的 LLaVA 模型。 尽管在某些任务的开放集 QA 中,指令调整模型可以比 BLIP2 给出更符合人类偏好的响应(Liu 等人,2023b),但在 MMT 的封闭集设置中,它们的表现比 BLIP2 差-长椅。 这反映了 MMT-Bench 的多任务挑战,并暗示使用 MMT-Bench 的分类法来扩展监督微调中的数据集,以实现未来的进步。

4.3具体任务及提示方法分析

在本节中,我们使用 LVLM 的不同提示来评估特定任务。

Refer to caption
图3: (a)-(h):比较多图像提示(表示为M)和单图像提示(表示为S)设置之间的LVLM性能。 完整的任务名称或任务名称缩写请参见附录D.2 (i):视觉参考提示相关任务的不同提示方法的比较。 这里我们从 MMT-Bench 中选择了 14 个子任务。 我们在这里仅报告平均准确度。 放大以获得更好的视图。

使用多图像单图像提示 LVLM。 在这里,我们探讨了利用多图像提示和单图像提示对 LVLM 性能的影响。 为此,我们在 MMT-Bench 中总结了28任务,这些任务通常需要多个图像作为输入,例如图像检索和视频字幕。 对于多图像提示,我们首先评估了 LVLM,这些 LVLM 本身就设计为支持多个图像作为输入(称为多图像 LVLM),包括 mPLUG-Owl2、QWen-VL-chat 和 Gemini-Pro-想象。 此外,我们还评估了主要学习单图像提示的 LVLM(称为 Single-Image LVLMs)以进行更全面的比较,包括 BLIP2、SharedCaptioner、ShareGPT4V-7B、Monkey 和 LLaVA-v1.5- 7B. 继之前的研究(Dai等人,2023;Li等人,2023c)之后,我们将每个图像单独输入到单图像LVLM中,并在输入大语言模型之前连接所有输出的视觉嵌入。 附录 Sec.D.2 总结了为多图像 LVLM 和单图像 LVLM 设计的多图像提示。 对于单图像提示,我们手动将多张图像组合成一张图像并将其输入 LVLM(参见图 1 中的示例)。

详细的性能比较如图3(a)-(h)所示。 我们有几个观察结果:i) 多图像任务对当前的 LVLM 提出了重大挑战,其中 GeminiProVision 实现的最佳精度仅为 53.8。 ii) 对于多图像 LVLM,提供多个图像而不是单个图像作为提示可以提高这些任务的整体性能,展示其从多个图像中提取有用信息的能力。 例如,对于人脸检索(FR)任务,当提供多个图像作为视觉提示时,GeminiProVision 的性能从 30.5 提高到 92.5 iii) 对于单图像 LVLM,多图像提示还有助于提高大多数模型的整体性能(Monkey 除外)。 令我们惊讶的是,BLIP2 在切换到多图像提示设置时取得了显着的性能提升,特别是在一般动作识别 (GAR) 和视频字幕 (VC) 等任务上。 这些结果凸显了 LVLM 学习多种模态的更稳健的统一表示的潜力。

大多数 LVLM 在视觉参考提示方面表现出较差的泛化能力。 视觉参考提示是一种令人印象深刻的提示技术,需要直接进行图像编辑,例如绘制边界框或掩模,以引导 LVLM 关注特定区域(Yang 等人,2023a) 我们选择涉及视觉参考提示的14任务(参见第D.3)来探索不同提示方法对最终结果的影响。 我们比较了三种附加设置:使用标准化 ([0,1]) 和像素 ([0, h 或 w]) 格式的边界框文本提示,以及结合视觉和文本提示。 如图3(i)所示,视觉提示(蓝色曲线)明显落后于其他设置,这种差异主要归因于大多数LVLM在监督微调期间缺乏视觉提示数据( SFT)阶段。

4.4错误分析

Refer to caption
图4: GPT-4V、GeminiProVision 和 InternVL-Chat-V1.2 的错误类型分布。

为了分析 MMT-Bench 上 LVLM 的误差分布,我们检查了三个 LVLM:GPT-4V、GeminiProVision 和 InternVL-Chat-V1.2 (InternVL)。 具体来说,我们为每个模型的每个子任务随机选择最多 5 个错误回答的问题。 然后,合著者中的特定任务专家分析了这些错误样本,以确定错误的根本原因,得出图4所示的错误分布。 有关这六种错误类型的定义和案例研究,请参阅第 2 节。附录中的G

如图4所示,感知错误是所有模型中最常见的错误类型,与 GeminiProVision (76.9%) 相比,GPT-4V 的感知错误率 (51%) 显着降低和InternVL(67.2%),表明其在感知任务中表现优越。 推理错误成为第二常见的错误类型,其中 InternVL 的推理错误率最高(14.8%),其次是 GeminiProVision(10.4%)和 GPT-4V(9.94%),凸显了所有模型在复杂推理任务中面临的挑战。

此外,三个模型中缺乏知识错误的比例相似,范围从 6.99% 到 9.0%。 这表明知识不足是一个普遍问题。 然而,与其他模型相比,GPT-4V 在缺乏能力(19%)和拒绝回答(6.11%)方面的错误率明显更高,这可能归因于其更诚实地承认其局限性并拒绝回答某些问题。问题。

InternVL 因其未能遵循指令的高错误率(6.64%)而脱颖而出,显着超过 GPT-4V(2.99%)和 GeminiProVision(1.14%),表明其在有效理解和执行指令方面存在困难。 另一方面,标注误差对整体误差分布的贡献最小,这意味着标注数据的质量较高,对模型性能的影响最小。

为了增强这些大型语言模型的性能,未来的改进应侧重于解决已识别的特定错误类型。 通过瞄准感知和推理能力、解决知识缺乏问题以及完善遵循指令的能力,开发人员可以致力于创建更准确、更可靠的语言模型。 GPT-4V对其局限性的诚实态度也凸显了人工智能系统透明度的重要性,可以进一步探索透明度并将其纳入未来的模型设计中。

5 任务分析

由于 MMT-Bench 中任务的广泛覆盖,我们可以在任务图上评估 LVLM 的多模态性能。 这样,通过分析图中任务之间的关系,就可以系统地解释不同任务在多模态能力中的作用。

Refer to caption
图5: 任务图的可视化和任务图的层次聚类。 请放大以获得更好的可视化效果。

5.1 分析工具

任务图。 为了研究子任务之间的关系,我们按照(Ilharco等人,2023)将每个子任务量化为任务向量。 形式上,任务向量由任务数据微调权重 Dt 与探测模型的初始权重 W0 之间的权重变化定义,如 Vt=argminW(W|Dt)W0 其中下标t表示任务,表示任务损失。 分三步获得Vt。首先,我们使用预训练的 QwenVL-Chat 作为探测模型,因为 QwenVL-Chat 在大多数子任务上都取得了良好的结果,这有助于获取有前途的任务向量。 其次,我们通过将所有多选 VQA 样本调整为每个子任务的指令跟踪数据来构造任务数据 Dt 第三,与对整个模型进行微调的 TaskVec (Ilharco 等人, 2023) 不同,我们使用 LoRA 微调 (Hu 等人) 对 QwenVL-Chat 进行了 3 epoch 的微调, 2021) 对于所有162子任务,将任务向量的长度从9.6B减少到3.5M,消耗更少的存储资源。 使用任务向量,任务映射可以构造为 𝒢={Gst}s,t=1T,其中 Gst=1cos(Vs,Vt) 表示任务 stT=162表示子任务总数。 根据定义,我们知道0Gst2

表3: 任务距离阈值δ(通过任务图上的最大任务距离归一化)与LVLM性能排名τδ的一致性之间的关系。 我们发现,当两个任务彼此接近时,LVLM 的性能排名更加一致。
δ 1 12 14 16 18
τδ 0.29 0.31 0.32 0.41 0.60

排名相关性:Kendall tau τ 为了定量评估任务图上的 LVLM,我们使用 Kendall tau τ 度量来衡量 LVLM 在不同子任务上的性能序列之间的排名相关性。 直觉告诉我们,当任务距离 Gst 较小时,如果模型 A 在任务 s 上的表现优于模型 B ,那么在任务 t 上,模型 A 将优于模型 B Kendall 的 tau τ 定义为 τst=2M(M1)1m<nMsign((PmsPns)(PmtPnt)),其中 Pms 表示模型 m 在任务 s 上的性能, M 是 LVLM 的数量。 如果参数为负,则函数 sign() 返回 1,否则返回 1 τst=1时,LVLM在任务st上具有完全一致的性能排名。

5.2 任务图上的发现

LVLM 在彼此更接近的任务上获得了更一致的性能排名。 我们评估 LVLM 是否在两个彼此接近的任务上实现一致的性能。 为了衡量这种一致性,我们采用了第 2 节中介绍的 Kendall tau 度量。 5.1 具体来说,我们考虑两个任务彼此更接近的所有子任务对,并计算它们的平均 Kendall's tau τ,可以由 τδ=1Ts=1T1|Δs|tΔsτst 给出,其中 Δs={t:Gstδ} δ是用于控制两个任务之间的接近度的阈值。 如表3所示,随着阈值δ减小,任务距离变小,τδ增大。 这表明 LVLM 在彼此更接近的任务上获得了更一致的性能排名。 因此,如果新任务接近 MMT-Bench 子任务之一,则可以预测 LVLM 在新任务上的性能。

域外 (OoD) 任务发现。 OoD 任务是指当前模型难以处理的任务。 发现 OoD 任务可以为未来的评估工作和开发更强大的 LVLM 提供见解。 由于不同任务上的模型性能与任务距离相关,因此我们假设 OoD 任务将被分组在任务图上的局部区域中。 因此,我们对任务图进行层次聚类来寻找OoD任务。 具体来说,162子任务被分组为12簇,如图5所示。 我们使用两个标准来识别包含 OoD 任务的集群。 首先,LVLM 在 OoD 任务上的性能较差。 在这方面,我们计算了所有 LVLM 模型中每个任务集群内的平均多模态性能。 其次,LVLM 在 OoD 任务上的性能将与表2中的总体多模态得分不一致,因为具有竞争性总体得分的 LVLM 甚至无法解决 OoD 任务。 因此,我们计算每个集群内的平均排名相关性τ 我们在表 4 中列出了这些统计数据,并在附录 A 中提供了聚类结果的详细分析。

我们可以看到集群 8911 实现了较低的多模态准确度和排名相关性 τ 在第 4.2 节中,我们发现该模型难以处理细粒度的视觉任务,例如检测。 通过对这些聚类的分析,我们同样发现当前的多模态大型模型无法执行细粒度的视觉认知以及对位置和空间关系的理解,例如定位和检测任务。 此外,它们在与新数据结构或图像类型相关的任务中表现不佳,表现出在处理与 GUI 和特殊数据结构(如表)相关的任务方面缺乏熟练程度。

表 4: 分层聚类后每个簇内的任务数量,以及模型在这些任务上的平均性能与模型整体性能之间的 Kendall tau τ
Cluster 1 2 3 4 5 6 7 8 9 10 11 12
# Tasks 11 53 16 16 9 8 7 16 4 9 10 3
τ 0.54 0.73 0.57 0.48 -0.05 0.62 0.63 0.34 0.12 0.57 0.38 0.59
Acc 40.4 64.7 61.9 39.9 55.9 30.0 33.1 40.2 31.4 61.2 33.2 50.7

域内任务发现。 域内任务是当前大多数多模态大型模型可以正确处理的任务。 发现域内任务可以指导LVLM在特定场景下的商业应用。 与 OoD 任务不同,我们通过寻找具有大排名相关性 τ 和高多模态精度的集群来识别域内任务。 从表4中,我们可以看到集群2310实现了相对较高的准确率和较大的排名相关性τ 我们观察到,当前的多模态大型模型具有强大的高级视觉理解能力,使它们能够有效地处理视觉识别任务,甚至在处理医学图像等专业图像时也是如此,这也可以在第 4.2 节中找到。 此外,他们受益于强大的大语言模型来准确描述图像。 我们在附录A中提供了详细的分析以及聚类结果。

6结论与讨论

在这项工作中,我们引入了 MMT-Bench,这是一个综合基准测试,旨在评估多模态多任务理解中的 LVLM。 MMT-Bench 的广度通过其精心策划的涵盖 162 多模式任务的 31,325 多项选择问题数据集得到凸显。 我们的评估揭示了我们的 MMT-Bench 对当前 LVLM 带来的重大挑战。 我们在任务图上对 LVLM 进行了任务分析,使我们能够预测新任务的性能。 我们 MMT-Bench 的目标是衡量多任务 AGI 道路上的进展。 我们应该承认,MMT-Bench 可能不足以作为确定多任务 AGI 是否已实现的标准,因为它不可能包含所有多模态任务。 然而,我们认为多任务 AGI 要想在 MMT-Bench 上取得优异的性能,应该是必要的。 我们将继续扩展 MMT-Bench 的任务集。 我们相信,MMT-Bench 将激发 LVLM 的进一步研究和开发,使我们更接近实现真正的智能多模态系统。

更广泛的影响。 MMT-Bench 作为评估大型视觉语言模型 (LVLM) 的基准的开发和广泛采用有可能对人工智能领域产生重大影响。 虽然 MMT-Bench 为推进 LVLM 研究提供了宝贵的见解和指导,但重要的是要考虑其更广泛的影响,包括伦理考虑和潜在的社会后果。

MMT-Bench 的一项潜在积极影响是其在推动 LVLM 技术进步方面的作用,从而提高各种多模式任务的性能和能力。 这可以使许多应用程序受益,例如视觉对话、视频分析和文档理解,最终增强用户体验和生产力。

然而,认识并解决潜在的负面影响也至关重要。 MMT-Bench 的主要限制之一是它对精选数据的依赖,这可能会无意中引入基于数据收集所用来源和方法的偏差。 例如,每个元任务的性能是通过对所有子任务取平均值来获得的,这可能会导致评估有偏差,因为元任务包含不同数量的子任务。 此外,MMT-Bench 中任务和子任务的选择可能只能部分捕捉现实世界场景的多样性,导致人们对 LVLM 跨不同领域和人群的能力的了解有限。 此外,数据收集过程可能不成比例地代表某些人口统计数据或背景,这可能导致对 LVLM 绩效的评估出现偏差。

另一个担忧是,基准测试对总体分数和特定任务准确度等性能指标的强调可能会过度简化评估过程,并掩盖 LVLM 性能的细微差别。 这可能会掩盖不同人口群体或领域的模型性能差异,从而导致人工智能系统中的偏见和不平等现象长期存在。 我们致力于将尽可能多的多模式任务收集到我们的 MMT-Bench 中,以进行公正的评估。

参考

  • Achille et al. (2019) Achille, A., Lam, M., Tewari, R., Ravichandran, A., Maji, S., Fowlkes, C. C., Soatto, S., and Perona, P. Task2vec: Task embedding for meta-learning. In Proceedings of the IEEE/CVF international conference on computer vision, pp. 6430–6439, 2019.
  • AI et al. (2024) AI, ., :, Young, A., Chen, B., Li, C., Huang, C., Zhang, G., Zhang, G., Li, H., Zhu, J., Chen, J., Chang, J., Yu, K., Liu, P., Liu, Q., Yue, S., Yang, S., Yang, S., Yu, T., Xie, W., Huang, W., Hu, X., Ren, X., Niu, X., Nie, P., Xu, Y., Liu, Y., Wang, Y., Cai, Y., Gu, Z., Liu, Z., and Dai, Z. Yi: Open foundation models by 01.ai, 2024.
  • Anthropic (2023) Anthropic. Claude, 2023. URL https://www.anthropic.com. Accessed: 2023-04-18.
  • Antol et al. (2015) Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., and Parikh, D. Vqa: Visual question answering. In Proceedings of the IEEE international conference on computer vision, pp. 2425–2433, 2015.
  • Bai et al. (2023) Bai, J., Bai, S., Yang, S., Wang, S., Tan, S., Wang, P., Lin, J., Zhou, C., and Zhou, J. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023.
  • Chen et al. (2023a) Chen, L., Li, J., Dong, X., Zhang, P., He, C., Wang, J., Zhao, F., and Lin, D. Sharegpt4v: Improving large multi-modal models with better captions. arXiv preprint arXiv:2311.12793, 2023a.
  • Chen et al. (2023b) Chen, Z., Wu, J., Wang, W., Su, W., Chen, G., Xing, S., Zhong, M., Zhang, Q., Zhu, X., Lu, L., Li, B., Luo, P., Lu, T., Qiao, Y., and Dai, J. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023b.
  • Chung et al. (2022) Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, E., Wang, X., Dehghani, M., Brahma, S., Webson, A., Gu, S. S., Dai, Z., Suzgun, M., Chen, X., Chowdhery, A., Narang, S., Mishra, G., Yu, A., Zhao, V., Huang, Y., Dai, A., Yu, H., Petrov, S., Chi, E. H., Dean, J., Devlin, J., Roberts, A., Zhou, D., Le, Q. V., and Wei, J. Scaling instruction-finetuned language models, 2022. URL https://arxiv.org/abs/2210.11416.
  • Contributors (2023a) Contributors, O. Opencompass: A universal evaluation platform for foundation models. https://github.com/open-compass/opencompass, 2023a.
  • Contributors (2023b) Contributors, T.-M. Transcore-m. https://github.com/PCIResearch/TransCore-M, 2023b.
  • Contributors (2023c) Contributors, X. Xtuner: A toolkit for efficiently fine-tuning llm. https://github.com/InternLM/xtuner, 2023c.
  • Dai et al. (2023) Dai, W., Li, J., Li, D., Tiong, A. M. H., Zhao, J., Wang, W., Li, B., Fung, P., and Hoi, S. Instructblip: Towards general-purpose vision-language models with instruction tuning, 2023.
  • Ding et al. (2021) Ding, M., Yang, Z., Hong, W., Zheng, W., Zhou, C., Yin, D., Lin, J., Zou, X., Shao, Z., Yang, H., et al. Cogview: Mastering text-to-image generation via transformers. Advances in Neural Information Processing Systems, 34:19822–19835, 2021.
  • Dong et al. (2024) Dong, X., Zhang, P., Zang, Y., Cao, Y., Wang, B., Ouyang, L., Wei, X., Zhang, S., Duan, H., Cao, M., Zhang, W., Li, Y., Yan, H., Gao, Y., Zhang, X., Li, W., Li, J., Chen, K., He, C., Zhang, X., Qiao, Y., Lin, D., and Wang, J. Internlm-xcomposer2: Mastering free-form text-image composition and comprehension in vision-language large model. arXiv preprint arXiv:2401.16420, 2024.
  • Fu et al. (2023) Fu, C., Chen, P., Shen, Y., Qin, Y., Zhang, M., Lin, X., Yang, J., Zheng, X., Li, K., Sun, X., et al. Mme: A comprehensive evaluation benchmark for multimodal large language models. arXiv preprint arXiv:2306.13394, 2023.
  • Gao et al. (2023) Gao, P., Han, J., Zhang, R., Lin, Z., Geng, S., Zhou, A., Zhang, W., Lu, P., He, C., Yue, X., Li, H., and Qiao, Y. Llama-adapter v2: Parameter-efficient visual instruction model. arXiv preprint arXiv:2304.15010, 2023.
  • Hu et al. (2021) Hu, E. J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., and Chen, W. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
  • Hudson & Manning (2019) Hudson, D. A. and Manning, C. D. Gqa: A new dataset for real-world visual reasoning and compositional question answering. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 6700–6709, 2019.
  • Ilharco et al. (2023) Ilharco, G., Ribeiro, M. T., Wortsman, M., Gururangan, S., Schmidt, L., Hajishirzi, H., and Farhadi, A. Editing models with task arithmetic. the 11th International Conference on Learning Representation (ICLR 2023), 2023.
  • Krishna et al. (2017) Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L.-J., Shamma, D. A., et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. International journal of computer vision, 123:32–73, 2017.
  • Langley (2000) Langley, P. Crafting papers on machine learning. In Langley, P. (ed.), Proceedings of the 17th International Conference on Machine Learning (ICML 2000), pp. 1207–1216, Stanford, CA, 2000. Morgan Kaufmann.
  • Latif et al. (2023) Latif, E., Mai, G., Nyaaba, M., Wu, X., Liu, N., Lu, G., Li, S., Liu, T., and Zhai, X. Agi: Artificial general intelligence for education, 2023.
  • Li et al. (2023a) Li, B., Wang, R., Wang, G., Ge, Y., Ge, Y., and Shan, Y. Seed-bench: Benchmarking multimodal llms with generative comprehension. arXiv preprint arXiv:2307.16125, 2023a.
  • Li et al. (2023b) Li, J., Li, D., Savarese, S., and Hoi, S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models, 2023b.
  • Li et al. (2023c) Li, K., Wang, Y., He, Y., Li, Y., Wang, Y., Liu, Y., Wang, Z., Xu, J., Chen, G., Luo, P., et al. Mvbench: A comprehensive multi-modal video understanding benchmark. arXiv preprint arXiv:2311.17005, 2023c.
  • Li et al. (2023d) Li, Z., Yang, B., Liu, Q., Ma, Z., Zhang, S., Yang, J., Sun, Y., Liu, Y., and Bai, X. Monkey: Image resolution and text label are important things for large multi-modal models. arXiv preprint arXiv:2311.06607, 2023d.
  • Lin et al. (2014) Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pp. 740–755. Springer, 2014.
  • Liu et al. (2023a) Liu, H., Li, C., Li, Y., and Lee, Y. J. Improved baselines with visual instruction tuning, 2023a.
  • Liu et al. (2023b) Liu, H., Li, C., Wu, Q., and Lee, Y. J. Visual instruction tuning, 2023b.
  • Liu et al. (2024a) Liu, H., Li, C., Li, Y., Li, B., Zhang, Y., Shen, S., and Lee, Y. J. Llava-next: Improved reasoning, ocr, and world knowledge, 2024a.
  • Liu et al. (2024b) Liu, S., Ying, K., Zhang, H., Yang, Y., Lin, Y., Zhang, T., Li, C., Qiao, Y., Luo, P., Shao, W., and Zhang, K. Convbench: A multi-turn conversation evaluation benchmark with hierarchical capability for large vision-language models, 2024b.
  • Liu et al. (2023c) Liu, Y., Duan, H., Zhang, Y., Li, B., Zhang, S., Zhao, W., Yuan, Y., Wang, J., He, C., Liu, Z., et al. Mmbench: Is your multi-modal model an all-around player? arXiv preprint arXiv:2307.06281, 2023c.
  • Lu et al. (2024) Lu, H., Liu, W., Zhang, B., Wang, B., Dong, K., Liu, B., Sun, J., Ren, T., Li, Z., Yang, H., Sun, Y., Deng, C., Xu, H., Xie, Z., and Ruan, C. Deepseek-vl: Towards real-world vision-language understanding, 2024.
  • Lu et al. (2023) Lu, P., Bansal, H., Xia, T., Liu, J., Li, C., Hajishirzi, H., Cheng, H., Chang, K.-W., Galley, M., and Gao, J. Mathvista: Evaluating mathematical reasoning of foundation models in visual contexts. arXiv preprint arXiv:2310.02255, 2023.
  • Marino et al. (2019) Marino, K., Rastegari, M., Farhadi, A., and Mottaghi, R. Ok-vqa: A visual question answering benchmark requiring external knowledge. In Proceedings of the IEEE/cvf conference on computer vision and pattern recognition, pp. 3195–3204, 2019.
  • Morris et al. (2023) Morris, M. R., Sohl-dickstein, J., Fiedel, N., Warkentin, T., Dafoe, A., Faust, A., Farabet, C., and Legg, S. Levels of agi: Operationalizing progress on the path to agi. arXiv preprint arXiv:2311.02462, 2023.
  • Radford et al. (2021) Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., and Sutskever, I. Learning transferable visual models from natural language supervision, 2021.
  • RBDash-Team (2023) RBDash-Team. Rbdash. https://github.com/RBDash-Team/RBDash, 2023.
  • Shao et al. (2023) Shao, W., Hu, Y., Gao, P., Lei, M., Zhang, K., Meng, F., Xu, P., Huang, S., Li, H., Qiao, Y., et al. Tiny lvlm-ehub: Early multimodal experiments with bard. arXiv preprint arXiv:2308.03729, 2023.
  • Singhal et al. (2023) Singhal, K., Azizi, S., Tu, T., Mahdavi, S. S., Wei, J., Chung, H. W., Scales, N., Tanwani, A., Cole-Lewis, H., Pfohl, S., et al. Large language models encode clinical knowledge. Nature, 620(7972):172–180, 2023.
  • Sun et al. (2023) Sun, Q., Fang, Y., Wu, L., Wang, X., and Cao, Y. Eva-clip: Improved training techniques for clip at scale. arXiv preprint arXiv:2303.15389, 2023.
  • Team (2023a) Team, G. Gemini: A family of highly capable multimodal models, 2023a.
  • Team (2023b) Team, I. Internlm: A multilingual language model with progressively enhanced capabilities. https://github.com/InternLM/InternLM, 2023b.
  • Team (2023c) Team, Q. Qwen technical report. arXiv preprint arXiv:2309.16609, 2023c.
  • Touvron et al. (2023a) Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., Rodriguez, A., Joulin, A., Grave, E., and Lample, G. Llama: Open and efficient foundation language models, 2023a.
  • Touvron et al. (2023b) Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C. C., Chen, M., Cucurull, G., Esiobu, D., Fernandes, J., Fu, J., Fu, W., Fuller, B., Gao, C., Goswami, V., Goyal, N., Hartshorn, A., Hosseini, S., Hou, R., Inan, H., Kardas, M., Kerkez, V., Khabsa, M., Kloumann, I., Korenev, A., Koura, P. S., Lachaux, M.-A., Lavril, T., Lee, J., Liskovich, D., Lu, Y., Mao, Y., Martinet, X., Mihaylov, T., Mishra, P., Molybog, I., Nie, Y., Poulton, A., Reizenstein, J., Rungta, R., Saladi, K., Schelten, A., Silva, R., Smith, E. M., Subramanian, R., Tan, X. E., Tang, B., Taylor, R., Williams, A., Kuan, J. X., Xu, P., Yan, Z., Zarov, I., Zhang, Y., Fan, A., Kambadur, M., Narang, S., Rodriguez, A., Stojnic, R., Edunov, S., and Scialom, T. Llama 2: Open foundation and fine-tuned chat models, 2023b.
  • Wallace et al. (2021) Wallace, B., Wu, Z., and Hariharan, B. Can we characterize tasks without labels or features? In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 1245–1254, 2021.
  • Wang et al. (2023) Wang, W., Lv, Q., Yu, W., Hong, W., Qi, J., Wang, Y., Ji, J., Yang, Z., Zhao, L., Song, X., Xu, J., Xu, B., Li, J., Dong, Y., Ding, M., and Tang, J. Cogvlm: Visual expert for pretrained language models. 2023.
  • Xu et al. (2023) Xu, P., Shao, W., Zhang, K., Gao, P., Liu, S., Lei, M., Meng, F., Huang, S., Qiao, Y., and Luo, P. Lvlm-ehub: A comprehensive evaluation benchmark for large vision-language models. arXiv preprint arXiv:2306.09265, 2023.
  • Yang et al. (2023a) Yang, Z., Li, L., Lin, K., Wang, J., Lin, C.-C., Liu, Z., and Wang, L. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1):1, 2023a.
  • Yang et al. (2023b) Yang, Z., Li, L., Lin, K., Wang, J., Lin, C.-C., Liu, Z., and Wang, L. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:2309.17421, 9(1):1, 2023b.
  • Yang et al. (2023c) Yang, Z., Liu, J., Han, Y., Chen, X., Huang, Z., Fu, B., and Yu, G. Appagent: Multimodal agents as smartphone users. arXiv preprint arXiv:2312.13771, 2023c.
  • Ye et al. (2023a) Ye, Q., Xu, H., Xu, G., Ye, J., Yan, M., Zhou, Y., Wang, J., Hu, A., Shi, P., Shi, Y., et al. mplug-owl: Modularization empowers large language models with multimodality. arXiv preprint arXiv:2304.14178, 2023a.
  • Ye et al. (2023b) Ye, Q., Xu, H., Ye, J., Yan, M., Hu, A., Liu, H., Qian, Q., Zhang, J., Huang, F., and Zhou, J. mplug-owl2: Revolutionizing multi-modal large language model with modality collaboration, 2023b.
  • Yin et al. (2023) Yin, Z., Wang, J., Cao, J., Shi, Z., Liu, D., Li, M., Sheng, L., Bai, L., Huang, X., Wang, Z., et al. Lamm: Language-assisted multi-modal instruction-tuning dataset, framework, and benchmark. arXiv preprint arXiv:2306.06687, 2023.
  • Yu et al. (2023) Yu, W., Yang, Z., Li, L., Wang, J., Lin, K., Liu, Z., Wang, X., and Wang, L. Mm-vet: Evaluating large multimodal models for integrated capabilities. arXiv preprint arXiv:2308.02490, 2023.
  • Yue et al. (2023a) Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., Wei, C., Yu, B., Yuan, R., Sun, R., Yin, M., Zheng, B., Yang, Z., Liu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. arXiv preprint arXiv:2311.16502, 2023a.
  • Yue et al. (2023b) Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., et al. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. arXiv preprint arXiv:2311.16502, 2023b.
  • Zamir et al. (2018) Zamir, A. R., Sax, A., Shen, W., Guibas, L. J., Malik, J., and Savarese, S. Taskonomy: Disentangling task transfer learning. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3712–3722, 2018.
  • Zhang et al. (2023a) Zhang, P., Dong, X., Wang, B., Cao, Y., Xu, C., Ouyang, L., Zhao, Z., Ding, S., Zhang, S., Duan, H., Zhang, W., Yan, H., Zhang, X., Li, W., Li, J., Chen, K., He, C., Zhang, X., Qiao, Y., Lin, D., and Wang, J. Internlm-xcomposer: A vision-language large model for advanced text-image comprehension and composition. arXiv preprint arXiv:2309.15112, 2023a.
  • Zhang et al. (2023b) Zhang, R., Han, J., Liu, C., Gao, P., Zhou, A., Hu, X., Yan, S., Lu, P., Li, H., and Qiao, Y. Llama-adapter: Efficient fine-tuning of language models with zero-init attention. arXiv preprint arXiv:2303.16199, 2023b.
  • Zheng et al. (2023) Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E. P., Zhang, H., Gonzalez, J. E., and Stoica, I. Judging llm-as-a-judge with mt-bench and chatbot arena, 2023.

在本附录中,我们提供了更多详细信息,如下:

  • 秒。 A:展示了对根据我们的 MMT-Bench 构建的任务图进行层次聚类和更多分析。

  • 秒。 B:包括样本大小、视觉输入类型以及针对每个子任务评估的 LVLM 功能的详细信息。

  • 秒。 C:枚举整篇论文中使用的任务缩写。

  • 秒。 D:通过多图像和视觉提示呈现详细的模型配置和实验细节。

  • 秒。 E:比较涉及像素坐标和标准化坐标的任务的性能。

  • 秒。 F:比较 LVLM 在不同图像类型和多模式功能上的性能。

  • 秒。 G:说明 MMT-Bench 中 32 元任务上的 GPT-4V、GeminiProVision 和 InternVL-Chat 的错误情况。

  • 秒。 H:给出 MMT-Bench 与其他基准在 OCR 相关任务上的比较。

  • 秒。 I:介绍一些关于基准构建的细节。

  • 秒。 J:讨论 MMT-Bench 和其他替代方案中使用的 openCompass 协议。

  • 秒。 K:给出评估中使用的计算资源。

  • 秒。 L:提供 MMT-Bench 上 30 个模型在所有 162 个子任务中的详细性能。

附录 A任务图

我们对任务图进行层次聚类,如图5所示。 当选择聚类簇数为12时,我们分析任务图的聚类结果以及相应任务上的模型性能。 在这里,我们在表 F 中列出了每个集群内的任务名称。

Refer to caption
图A1: 不同任务上模型性能的可视化。 不同颜色表示聚类后形成的各个类别,从左到右排列,从第一个类别到第十二个类别。 请放大以获得更好的可视化效果。

域外 (OoD) 任务发现。 我们可以看到集群 8911 实现了较低的多模态准确度和排名相关性 τ 从这些集群中,我们发现当前的多模态大型模型缺乏执行细粒度视觉认知和理解位置和空间关系的能力,例如定位和检测任务。 此外,它们在与新数据结构或图像类型相关的任务中表现不佳,表现出在处理与 GUI 和特殊数据结构(如表)相关的任务方面缺乏熟练程度。

  • 集群8主要涉及检测、跟踪和定位任务,所有这些任务都与图像内对象的定位相关。 这表明当前的大型多模态模型缺乏细粒度的视觉认知以及对位置和空间关系的理解。

  • 集群 9 中的任务以 GUI 导航为中心,这是一种新颖的任务类型,需要强大的视觉理解、对象定位和操作移动设备的专业知识(Yang 等人,2023c) 这表明当前的大型多模态模型需要针对 GUI 相关任务进行进一步优化。

  • 除了检测和定位任务之外,集群11还包括涉及特殊图像识别或将其转换为结构化文本的任务。 前者要求模型具备空间认知和细粒度的视觉能力,而后者则需要强大的OCR能力和广泛的知识(例如理解和输出代码或表格的基本结构)。 目前我们测试的 LVLM 在这方面还存在不足。

域内任务发现。 从表4中,我们可以看到集群2310实现了相对较高的准确率和较大的排名相关性τ 我们观察到,当前的多模态大型模型具有强大的高水平视觉理解能力,使它们能够有效地处理视觉识别任务,即使在处理医学图像等专业图像时也是如此。 此外,他们受益于强大的大语言模型来准确描述图像。

  • 集群2主要包含视觉识别任务,这些任务要求模型具备一定的高级视觉能力,但这些任务相对简单。 检查表2和图A1,我们观察到模型在该集群中的性能总体良好。 这验证了当前的多模态大型模型具有视觉语义理解的基本能力,使它们能够完成识别任务。

  • 集群3主要包括视觉识别任务,但还扩展到涵盖需要初级专业知识(例如医学和情感)的复杂视觉理解任务。 在这个集群中,该模型表现出较大的 τ 和较高的准确度,这表明当前的多模态模型关注需要注入特定领域知识的任务,而不仅仅是自然图像。 这意味着具有一定的处理专业领域问题的能力。

  • 在 Cluster 10 中,LVLM 在与图像视觉描述相关的任务上取得了良好的性能。 这表明当前的大型多模态模型可以很好地描述图像。 这是因为这些模型通常是通过大量图像文本对进行调整的。

附录BMMT-Bench的层次结构

在表A2到表A4中,我们展示了MMT-Bench的所有32元任务,总共包含162子任务。 这些表包含有关样本大小、视觉输入类型以及针对每个子任务评估的 LVLM 功能的详细信息。

表A1: 本文中提到的术语缩写及其相应的完整术语。
Abbreviation Full Term Abbreviation Full Term
Meta-Task
VR Visual Recognition VI Visual Illusion
Loc Localization MemU Meme Understanding
OCR OCR VPU Visual Prompt Understanding
Count Counting AND Anomaly Detection
HLN Hallucination KD Keypoint Detection
IR Image Retrieval VCR Visual Commonsense Reasoning
3D 3D IEJ Image Evaluation Judgement
VC Visual Captioning MIA Multiple Image Analysis
VG Visual Grounding CIM Cross Image Matching
DU Doc Understanding TU Temporal Understanding
AR Action Recognition VCo Visual Code
PLP Pixel Level Perception MedU Medical Understanding
I2IT Image-to-image Translation AUD Autonomous Driving
RR Relation Reasoning DKR Discipline Knowledge Reasoning
IQT Intelligence Quotient Test EA Embodied AI
Emo Emotion GN GUI Navigation
Subtask
AQS Action Quality Assessment SODRD Salient Object Detection RGBD
FECR Facial Expression Change Recognition SLR Sign Language Recognition
FR Face Retrieval SOT Single Object Tracking
GAR General Action Recognition S2IR Sketch2image Retrieval
HR Handwritten Retrieval SD Spot the Diff
I2IR Image2image Retrieval SS Spot the Similarity
IC Image Colorization TA Temporal Anticipation
MVU Meme Video Understanding TL Temporal Localization
ME MEVIS TO Temporal Ordering
MIC Multiple Image Captioning T2IR Text2image Retrieval
NIP Next Image Prediction 3DCR 3D CAD Recognition
OSD One-shot Detection 3DIR 3D Indoor Recognition
PRe Person Reid VR Vehicle Retrieval
PT Point Tracking VC Video Captioning

附录 C任务缩写

鉴于基准测试中测试的任务和模型数量巨大,我们使用缩写来压缩手稿。 整篇论文中使用的缩写如表A1所示。

附录 D更多实验细节

D.1 LVLM 型号详细信息

A5总结了本文使用的LVLM信息,包括相应的参数大小、视觉编码器和大语言模型。 请注意,我们使用遵循 OpenCompass 的协议(贡献者,2023a)来进行评估过程。 不同模型的推理时间有所不同。 例如,较小的 LLaVA-v1.5-7B (Liu 等人, 2023a) 模型使用 8 个 GPU 仅需要 12 分钟即可完成评估,而较大的 InternVL- Chat-V1.2-34B 模型(Chen 等人,2023b) 需要 79 分钟和大约 80GB 内存。 我们的开源代码库支持多GPU分布式推理,有效加速推理过程。

D.2多图像提示实验细节

对于需要多个图像作为输入的28任务,具体任务名称及任务缩写请参见表A6-A9 此外,我们还在表A6-A9中提供了单图像LVLM和多图像LVLM的设计提示示例以供参考。

D.3 视觉参考提示实验细节

4.3 节中,我们探讨了视觉提示与替代提示策略在 14 种不同任务中的不同功效。 这些包括人类交互理解、社会关系识别、人与物体交互识别、动物关键点检测、车辆关键点检测、人体关键点检测、衣服关键点检测、场景文本识别、交互式分割、实例字幕、多实例字幕、单次检测,单个物体跟踪,并通过视觉提示进行计数。

附录 E像素坐标标准化坐标

在图A2中,我们分析了19检测相关任务的性能,特别是点跟踪、图像抠图、像素识别、多边形定位、像素定位、深度估计、MEVIS、遥感物体检测、旋转物体检测、小物体检测、迷彩物体检测、RGB-D显着物体检测、透明物体检测、人脸检测、物体检测、RGB显着物体检测、参考检测、原因分割和图像密集字幕。 这些任务涵盖定位、像素级感知和视觉字幕,比较两种不同坐标格式下的结果。 值得注意的是,GeminiProVision 落后于 BLIP2 和 XComposer2 等顶级开源 LVLM,后者已经过检测数据的广泛训练。 大多数模型对标准化坐标的偏好归因于它们在训练指令模板中的使用。

附录F图像类型和能力分析

不同视觉类型的性能。 我们在图 A3 中比较了 20 个 LVLM 在 13 种视觉输入类型中的性能。 由于任务难度,大多数 LVLM 都难以处理科学图表,因为包括科学图表和“乌鸦渐进矩阵”在内的许多图表都需要复杂的推理,而当前 LVLM 并不具备这种能力。

跨多式联运功能的性能。 我们还在图 A4 中比较了 20 LVLM 跨 14 类型视觉输入的性能。 正如我们所看到的,GeminiProVision 在大多数功能上再次展现出强大的优势,特别是在检索和多图像分析(涉及多图像的识别和匹配)方面,远远优于其他开源 LVLM。 这一优势源于GeminiProVision对多图像模式的支持及其强大的泛化能力,引导开源模型未来的方向朝着关注多图像和视频理解的方向发展。

Details of task clustering on the task map of our MMT-Bench.
Meta-Task Subtask # subtasks
Table A1 – continued from previous page
Meta-Task Subtask # subtasks
Cluster ID: 1
Visual Prompt Understanding Visual Prompt Understanding, Som (Set-of-marks) Recognition 2
Pixel Level Perception Image Matting 1
Visual Recognition Color Recognition, Abstract Visual Recognition 2
Discipline Knowledge Reasoning Science, Tech Engineering, Health Medicine, Humanities Social Science, Business, Art Design 6
Cluster ID: 2
Visual Recognition Waste recognition, Logo and Brand Recognition, Animals Recognition, Weapon Recognition, Celebrity Recognition, Shape Recognition, Age Gender Race Recognition, Rock Recognition, Painting Recognition, Gesture Recognition, Vehicle Recognition, Astronomical Recognition, Fashion Recognition, Musical Instrument Recognition, Disaster Recognition, Sports Recognition, Building Recognition, Texture Material Recognition, Plant Recognition, Film and Television Recognition, Animated Character Recognition, Electronic Object Recognition, Scene Recognition, National Flag Recognition, Profession Recognition, Weather Recognition, Food Recognition 27
Relation Reasoning Human Object Interaction Recognition, Human Interaction Understanding 2
Action Recognition Image-based Action Recognition, Sign Language Recognition, General Action Recognition 4
Emotion Scene Emotion Recognition, Artwork Emotion Recognition, Facial Expression Recognition, Micro Expression Recognition, Body Emotion Recognition 5
Image Evaluation Judgement Lvlm Response Judgement 1
Visual Commonsense Reasoning WhoopsVQA 1
Hallucination Attribute Hallucination 1
Counting Counting by Visual Prompting, Crowd Counting 2
Medical Understanding Other Biological Attributes 1
Autonomous Driving Traffic Sign Understanding 1
OCR Font Recognition, Scene Text Recognition 2
Pixel Level Perception Pixel Recognition 1
Anomaly Detection Face Mask Anomaly Detection 1
Multiple Image Analysis Spot the Diff 1
Visual Captioning Instance Captioning 1
Doc Understanding Clock Reading, Doc VQA 2
Meme Understanding Meme Image Understanding 1
Cluster ID: 3
Medical Understanding Medical Modality Recognition, Lesion Grading, Disease DiagnoseAnatomy Identification 3
Visual Captioning Multiple Image Captioning, Writing Poetry from Image 2
Emotion Facial Expression Change Recognition 1
Visual Recognition Image Season Recognition, Sculpture Recognition, Chemical Apparatus Recognition, Landmark Recognition, Religious Recognition 5
Hallucination Relation Hallucination 1
Relation reasoning Social Relation Recognition 1
OCR Handwritten Text Recognition 1
Temporal Understanding Temporal Anticipation 1
Cluster ID: 4
Intelligence Quotient Test Ravens Progressive Matrices 1
Temporal Understanding Temporal Localization 1
Autonomous Driving Traffic Participants Understanding, Temporal Sequence Understanding, Multiple View Image Understanding 3
Counting Counting by Category, Counting by Reasoning 2
Hallucination Order Hallucination 1
Doc Understanding Visual Document Information Extraction, Chart VQA 2
Action Recognition Action Quality Assessment, 2
3D 3D Cad Recognition, 3D indoor recognition 2
Anomaly Detection Industrial Produce Anomaly Detection 1
Image Evaluation Judgement Image Quality Assessment 1
Low Level Vision Depth Estimation 1
Cluster ID: 5
Multiple Image Analysis Spot the Similarity 1
Visual Illusion Color Assimilation, Geometrical Relativity, Color Constancy, Color Contrast, Geometrical Perspective 5
Autonomous Driving Traffic Light Understanding 1
Visual Recognition Deepfake Detection 1
Anomaly Detection Helmet Anomaly Detection 1
Cluster ID: 6
Image Retrieval Vehicle Retrieval, Image2image Retrieval, Sketch2image Retrieval, Face Retrieval, Text2image Retrieval, Handwritten Retrieval, Person Reid 7
Image-to-image translation Image Colorization 1
Cluster ID: 7
Visual Code Eqn2latex, 2
Keypoint Detection Clothes Keypoint Detection 1
OCR Handwritten Math Expression recognition 1
Pixel Level Perception Interactive Segmentation 1
Temporal Understanding Temporal Ordering 1
Visual Captioning Image Dense Captioning 1
Action Recognition Gaze Estimation 1
Cluster ID: 8
Localization Salient Object Detection RGB, Camouflage Object Detection, Face Detection, Object Detection, Small Object Detection, Salient Object Detection RGBD, Rotated Object Detection, Remote Sensing Object Detection, Transparent Object Detection 9
Visual Grounding Referring Detection, Reason Seg 2
Cross Image Matching Point Tracking, One Shot Detection, 3
Image-to-image Translation Jigsaw Puzzle Solving 1
Cross Image Catching Single Object Tracking 1
Pixel Level Perception Pixel Localization 1
Cluster ID: 9
GUI Navigation Web Shopping, GUI General, Google Apps, GUI Install 4
Cluster ID: 10
Visual Captioning Multiple Instance Captioning, Image Captioning Paragraph, Image Captioning 3
Anomaly Detection Traffic Anomaly Detection 1
Doc Understanding Chart to text 1
Hallucination Exist Hallucination 1
Relation Reasoning Scene Graph Recognition 1
Embodied AI Navigation 1
Anomaly Detection Behavior Anomaly Detection 1
Cluster ID: 11
Doc Understanding Table Structure Recognition, Chart to Table 2
Keypoint Detection Furniture Keypoint Detection, Vehicle Keypoint Detection, Human Keypoint Detection, Animal Keypoint Detection 4
Pixel Level Perception Polygon Localization, 2
Temporal Understanding Next Image Prediction 1
Visual Code Sketch2code, Screenshot2code 2
Cluster ID: 12
Meme Understanding Meme Video Understanding 1
Temporal Understanding Mevis 1
Visual Captioning Video Captioning 1
表 A2: MMT-Bench 子任务详细信息(第 1 部分):包括样本数量、视觉输入类型和评估的 LVLM 功能。
Subtask Name Sample Num Visual Input Type Capability
Visual Grounding
Reason Seg 196 Natural Image Visual Reasoning,Visual Localization
Referring Detection 200 Natural Image Visual Localization
Doc Understanding
Doc Vqa 200 Text-rich Image Document Understanding
Visual Document Information Extraction 200 Text-rich Image Document Understanding
Chart To Text 200 Chart Image Document Understanding
Chart To Table 200 Chart Image Document Understanding
Clock Reading 200 Abstract Image Visual Recognition,Document Understanding
Chart Vqa 200 Chart Image Document Understanding
Table Structure Recognition 46 Chart Image Document Understanding
Action Recognition
Gaze Estimation 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Image Based Action Recognition 200 Natural Image Visual Recognition
General Action Recognition 200 Natural Image Visual Recognition,Multi-Images Analysis
Action Quality Assessment 200 Natural Image Visual Recognition,Multi-Images Analysis,Expert Knowledge Utilization
Sign Language Recognition 200 Natural Image Visual Recognition,Multi-Images Analysis
Localization
Remote Sensing Object Detection 200 Remote Sensing Image Visual Recognition,Visual Localization
Rotated Object Detection 90 Remote Sensing Image Visual Recognition,Visual Localization
Small Object Detection 200 Natural Image Visual Recognition,Visual Localization
Camouflage Object Detection 200 Natural Image Visual Recognition,Visual Localization
Salient Object Detection Rgbd 200 Natural Image,Depth Map Visual Localization
Transparent Object Detection 200 Natural Image Visual Recognition,Visual Localization
Face Detection 200 Natural Image Visual Recognition,Visual Localization
Object Detection 200 Natural Image Visual Recognition,Visual Localization
Salient Object Detection Rgb 200 Natural Image Visual Localization
Visual Recognition
Deepfake Detection 200 Natural Image,Synthetic Image Visual Recognition,Visual Reasoning,Expert Knowledge Utilization
Weather Recognition 194 Natural Image Visual Recognition
Image Season Recognition 200 Natural Image Visual Recognition
Gesture Recognition 200 Natural Image Visual Recognition
Muscial Instrument Recognition 200 Natural Image Visual Recognition
Food Recognition 200 Natural Image Visual Recognition
Landmark Recognition 50 Natural Image Visual Recognition,Expert Knowledge Utilization
Scene Recognition 200 Natural Image Visual Recognition
Animals Recognition 200 Natural Image Visual Recognition
Chemical Apparatusn Recognition 200 Natural Image Visual Recognition
Rock Recognition 200 Natural Image Visual Recognition,Expert Knowledge Utilization
Fashion Recognition 200 Natural Image Visual Recognition
Logo And Brand Recognition 200 Natural Image Visual Recognition
Astronomical Recognition 94 Natural Image Visual Recognition,Expert Knowledge Utilization
Painting Recognition 200 Painting Image Visual Recognition,Expert Knowledge Utilization
Color Recognition 200 Synthetic Image Visual Recognition
Plant Recognition 200 Natural Image Visual Recognition
Shape Recognition 200 Synthetic Image Visual Recognition
Profession Recognition 200 Natural Image Visual Recognition
Building Recognition 200 Natural Image Visual Recognition,Expert Knowledge Utilization
Electronic Object Recognition 200 Natural Image Visual Recognition
Sports Recognition 200 Natural Image Visual Recognition
Disaster Recognition 200 Natural Image Visual Recognition
Celebrity Recognition 200 Natural Image Visual Recognition
Vehicle Recognition 200 Natural Image Visual Recognition
National Flag Recognition 200 Synthetic Image Visual Recognition
Abstract Visual Recognition 200 Abstract Image Visual Recognition
Animated Character Recognition 200 Synthetic Image Visual Recognition
Texture Material Recognition 200 Natural Image Visual Recognition
Film And Television Recognition 200 Synthetic Image Visual Recognition,Expert Knowledge Utilization
Sculpture Recognition 50 Natural Image Visual Recognition,Expert Knowledge Utilization
Age Gender Race Recognition 200 Natural Image Visual Recognition
Weapon Recognition 200 Natural Image Visual Recognition
Religious Recognition 200 Natural Image,Synthetic Image Visual Recognition,Expert Knowledge Utilization
Waste Recognition 200 Natural Image Visual Recognition,Expert Knowledge Utilization
表 A3: MMT-Bench 子任务详细信息(第 2 部分):包括样本数量、视觉输入类型和评估的 LVLM 功能。
Subtask Name Sample Num Visual Input Type Capability
Gui Navigation
Gui General 200 Screenshot Image Visual Reasoning,Visual Localization
Google Apps 200 Screenshot Image Visual Reasoning,Visual Localization
Web Shopping 200 Screenshot Image Visual Reasoning,Visual Localization
Gui Install 200 Screenshot Image Visual Reasoning,Visual Localization
OCR
Font Recognition 200 Text-rich Image OCR
Handwritten Text Recognition 100 Text-rich Image OCR
Handwritten Mathematical Expression Recognition 100 Text-rich Image OCR
Scene Text Recognition 200 Natural Image,Text-rich Image OCR
Image-to-image Translation
Jigsaw Puzzle Solving 200 Natural Image Visual Recognition,Visual Reasoning
Image Colorization 200 Natural Image Pixel Perception
Temporal Understanding
Next Img Prediction 200 Visual Mark Temporal Understanding
Mevis 200 Natural Image Temporal Understanding
Temporal Anticipation 200 Natural Image Temporal Understanding
Temporal Ordering 200 Natural Image Temporal Understanding
Temporal Localization 193 Natural Image Temporal Understanding
Relation Reasoning
Social Relation Recognition 200 Natural Image Visual Recognition,Visual Reasoning
Human Object Interaction Recognition 200 Natural Image Visual Recognition,Visual Reasoning
Scene Graph Recognition 200 Natural Image Visual Recognition,Visual Reasoning
Human Interaction Understanding 200 Natural Image Visual Recognition,Visual Reasoning
Discipline Knowledge Reasoning
Science 127 Scientific Diagram Visual Reasoning,Expert Knowledge Utilization
Health Medicine 140 Natural Image,Chart Image,Medical Image Visual Reasoning,Expert Knowledge Utilization
Art Design 110 Synthetic Image,Text-rich Image,Painting Image Visual Reasoning,Expert Knowledge Utilization
Humanitites Social Science 112 Synthetic Image,Painting Image Visual Reasoning,Expert Knowledge Utilization
Tech Engineering 182 Chart Image,Scientific Diagram Visual Reasoning,Expert Knowledge Utilization
Business 120 Text-rich Image,Chart Image Visual Reasoning,Expert Knowledge Utilization
Intelligence Quotient Test
Ravens Progressive Matrices 200 Scientific Diagram Visual Reasoning,Expert Knowledge Utilization
Embodied AI
Navigation 200 Synthetic Image Visual Reasoning,Expert Knowledge Utilization
Emotion
Facail Expression Change Recognition 200 Natural Image Visual Recognition,Temporal Understanding
Scene Emotion Recognition 200 Natural Image Visual Recognition
Micro Expression Recognition 200 Natural Image Visual Recognition
Artwork Emotion Recognition 200 Painting Image Visual Recognition
Body Emotion Recognition 200 Natural Image Visual Recognition
Facial Expression Recognition 200 Natural Image Visual Recognition
Visual Illusion
Color Constancy 72 Synthetic Image Visual Recognition,Visual Reasoning
Color Assimilation 200 Synthetic Image Visual Recognition,Visual Reasoning
Geometrical Relativity 200 Synthetic Image Visual Recognition,Visual Reasoning
Geometrical Perspective 120 Synthetic Image Visual Recognition,Visual Reasoning
Color Contrast 200 Synthetic Image Visual Recognition,Visual Reasoning
Meme Understanding
Meme Vedio Understanding 200 Natural Image Visual Description
Meme Image Understanding 200 Synthetic Image Visual Description
Counting
Counting By Visual Prompting 200 Natural Image Visual Recognition,Counting
Counting By Category 800 Natural Image Visual Recognition,Counting
Crowd Counting 200 Natural Image Visual Recognition,Counting
Counting By Reasoning 200 Natural Image Visual Recognition,Counting
Hallucination
Order Hallucination 200 Natural Image Visual Recognition,Visual Reasoning,Visual Description
Relation Hallucination 200 Natural Image Visual Recognition,Visual Reasoning,Visual Description
Attribute Hallucination 200 Natural Image Visual Recognition,Visual Reasoning,Visual Description
Exist Hallucination 200 Natural Image Visual Recognition,Visual Reasoning
Image Retrieval
Person Reid 200 Natural Image Retrieval,Multi-Images Analysis
Sketch2image Retrieval 200 Natural Image,Text-rich Image Retrieval,Multi-Images Analysis
Face Retrieval 200 Natural Image Retrieval,Multi-Images Analysis
Handwritten Retrieval 200 Text-rich Image Retrieval,OCR,Multi-Images Analysis
Vehicle Retrieval 200 Natural Image Retrieval,Multi-Images Analysis
Image2image Retrieval 200 Natural Image Retrieval,Multi-Images Analysis
Text2image Retrieval 200 Natural Image Retrieval,Multi-Images Analysis
Visual Prompt Understanding
Som Recognition 199 Natural Image,Visual Mark Visual Recognition,Visual Reasoning,Visual Localization,Visual Prompting Understanding
Visual Prompt Understanding 200 Natural Image,Visual Mark Visual Recognition,Visual Reasoning,Visual Localization,Visual Prompting Understanding
表 A4: MMT-Bench 子任务详细信息(第 3 部分):包括样本数量、视觉输入类型和评估的 LVLM 功能。
Subtask Name Sample Num Visual Input Type Capability
Anomaly Detection
Industrial Produce Anomaly Detection 200 Natural Image Visual Recognition,Counting
Face Mask Anomaly Dectection 200 Natural Image Visual Recognition
Helmet Anomaly Detection 200 Natural Image Visual Recognition,Visual Localization
Behavior Anomaly Detection 200 Natural Image Visual Recognition,Multi-Images Analysis
Traffic Anomaly Detection 200 Natural Image Visual Recognition
Keypoint Detection
Furniture Keypoint Detection 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Human Keypoint Detection 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Clothes Keypoint Detection 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Animal Keypoint Detection 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Vehicle Keypoint Detection 92 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Visual Commonsense Reasoning
Whoops 200 Synthetic Image Visual Recognition,Visual Reasoning
Visual Code
Eqn2latex 200 Text-rich Image,Scientific Diagram OCR,Document Understanding,Expert Knowledge Utilization
Screenshot2code 200 Screenshot Image Document Understanding,Expert Knowledge Utilization
Sketch2code 200 Scientific Diagram Document Understanding,Expert Knowledge Utilization
Image Evaluation Judgement
Image Quality Assessment 200 Natural Image Visual Reasoning
Lvlm Response Judgement 200 Synthetic Image,Chart Image Visual Reasoning
Pixel Level Perception
Polygon Localization 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Interactive Segmentation 141 Natural Image Visual Localization,Pixel Perception
Depth Estimation 200 Natural Image Pixel Perception,3D Perception
Pixel Recognition 200 Natural Image Visual Recognition,Pixel Perception
Pixel Localization 200 Natural Image Visual Recognition,Visual Localization,Pixel Perception
Image Matting 200 Natural Image Pixel Perception
Multiple Image Analysis
Spot The Similarity 200 Natural Image,Synthetic Image Multi-Images Analysis
Spot The Diff 200 Natural Image Multi-Images Analysis
3D
3D Cad Recognition 200 3d Image Multi-Images Analysis,3D Perception
3D Indoor Recognition 200 3d Image Multi-Images Analysis,3D Perception
Medical Understanding
Anatomy Identification 200 Medical Image Visual Recognition,Expert Knowledge Utilization
Medical Modality Recognition 200 Medical Image Visual Recognition,Expert Knowledge Utilization
Other Biological Attributes 200 Medical Image Visual Recognition,Expert Knowledge Utilization
Disease Diagnose 200 Medical Image Visual Recognition,Expert Knowledge Utilization
Lesion Grading 200 Medical Image Visual Recognition,Expert Knowledge Utilization
Cross Image Matching
One Shot Detection 200 Natural Image Visual Localization
Point Tracking 200 Natural Image Visual Localization
Single Object Tracking 200 Natural Image Visual Localization
Visual Captioning
Video Captioning 200 Natural Image Visual Description,Temporal Understanding
Image Captioning Paragraph 200 Natural Image Visual Description
Image Captioning 200 Natural Image Visual Description
Instance Captioning 200 Natural Image Visual Description
Image Dense Captioning 197 Natural Image Visual Description
Multiple Instance Captioning 200 Natural Image Visual Description
Multiple Image Captioning 200 Natural Image Visual Description,Multi-Images Analysis
Writing Poetry From Image 200 Natural Image,Text-rich Image Visual Description
Autonomous Driving
Traffic Participants Understanding 200 Natural Image Counting
Multiple View Image Understanding 200 Natural Image Visual Reasoning,Multi-Images Analysis,Counting
Traffic Sign Understanding 200 Natural Image Visual Reasoning,Expert Knowledge Utilization
Temporal Sequence Understanding 200 Natural Image Visual Reasoning,Temporal Understanding
Traffic Light Understanding 200 Natural Image Visual Recognition
表 A5: 在 MMT-Bench 上评估的 30 LVLM 模型架构。
Models Parameters Vision Encoder LLM
GPT-4V (Yang et al., 2023a) - - -
GeminiProVision (Team, 2023a) - - -
QWen-VL-Plus (Team, 2023c) - - -
Claude3V-Haiku (Anthropic, 2023) - - -
LLaVA-Next-34B (Liu et al., 2024a) 34.8B CLIP ViT-L/14 Nous-Hermes-2-Yi-34B
LLaVA-Next-13B (Liu et al., 2024a) 13.4B CLIP ViT-L/14 Vicuna-v1.5-13B
LLaVA-Next-7B (Liu et al., 2024a) 7.1B CLIP ViT-L/14 Vicuna-v1.5-7B
Yi-VL-34B (AI et al., 2024) 34.6B CLIP ViT-H/14 Nous-Hermes-2-Yi-34B
Yi-VL-6B (AI et al., 2024) 6.6B CLIP ViT-H/14 Yi-6B
InternVL-Chat-V1.2 (Chen et al., 2023b) 40B InternViT-6B Nous-Hermes-2-Yi-34B
DeepSeek-VL-7B (Lu et al., 2024) 7.3B SAM-B & SigLIP-L DeekSeek-7B
Monkey (Li et al., 2023d) 9.8B CLIP-ViT-BigHuge Qwen-7B
XComposer (Zhang et al., 2023a) 8B EVA-CLIP-G InternLM-7B
XComposer2 (Dong et al., 2024) 7B CLIP ViT-L/14 InternLM2-7B
ShareGPT4V (Chen et al., 2023a) 7.2B CLIP ViT-L/14 Vicuna-v1.5-7B
SharedCaptioner (Chen et al., 2023a) 8B EVA-G InternLM-7B
mPLUG-Owl2 (Ye et al., 2023b) 8.2B CLIP ViT-L/14 LLaMA2-7B
LLaVA-v1.5-7B (Liu et al., 2023b, a) 7.2B CLIP ViT-L/14 Vicuna-v1.5-7B
LLaVA-v1.5-13B (Liu et al., 2023b, a) 13.4B CLIP ViT-L/14 Vicuna-v1.5-13B
LLaVA-InternLM2-7B (Contributors, 2023c) 8.1B CLIP ViT-L/14 InternLM2-7B
LLaVA-InternLM-7B (Contributors, 2023c) 7.6B CLIP ViT-L/14 InternLM-7B
LLaVA-v1.5-7B-Xtuner (Contributors, 2023c) 7.2B CLIP ViT-L/14 Vicuna-v1.5-7B
LLaVA-v1.5-13B-Xtuner (Contributors, 2023c) 13.4B CLIP ViT-L/14 Vicuna-v1.5-13B
LLaMA-Adapter-v2 (Gao et al., 2023) 7B CLIP-ViT-L/14 LLaMA-7B
VisualGLM (Ding et al., 2021) 8B EVA-CLIP ChatGLM-6B
CogVLM (Wang et al., 2023) 17B EVA-CLIP-E Vicuna-v1.5-7B
TransCore-M (Contributors, 2023b) 13.4B CLIP ViT/L-14 PCITransGPT-13B
RBDash-v1 (RBDash-Team, 2023) 13.4B CLIP ViT-L/14 Vicuna-v1.5-13B
BLIP2 (Li et al., 2023b) 12.1B EVA-CLIP ViT-G/14 Flan-T5-XXL
QWenVL (Bai et al., 2023) 9.6B CLIP ViT-G/16 QWen-7B
表 A6: 需要多个图像作为输入的任务的缩写(第一部分)。 在这里,我们还介绍了用于单图像 LVLM 和多图像 LVLM 的设计提示示例。
Task Abbreviation Task Name Prompt Example for Single Image LVLMs Prompt example for Multiple Image LVLMs
AQS
action quality
assessment
Question: <image><image><image><image>
What is the most probable action quality assessment
number obtained by the person in the video?
Options:
A. 35.99
B. 28.0
C. 11.27
D. 44.98
Question: <image><image><image><image>
What is the most probable action quality assessment
number obtained by the person in the video?
Options:
A. 35.99
B. 28.0
C. 11.27
D. 44.98
FECR
facail expression
change recognition
Question: <image><image>What is the change
of expression from the first image to the second image?
Options:
A. disgust to happy
B. happy to sadness
C. anger to surprise
D. disgust to fear
Question: What is the change of expression from
Image 1: <image>to Image 2: <image>?
Options:
A. disgust to happy
B. happy to sadness
C. anger to surprise
D. disgust to fear
FR
face
retrieval
Question: <image><image><image><image>
<image>Please retrieve the most similar person to the query
in the candidates. The first image is the query image and
the remaining images are candidates from Candidate 1 to
Candidate 4.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please retrieve the most similar person to the query:
<image>in the candidates: Candidate 1: <image>,
Candidate 2: <image>, Candidate 3: <image>,
Candidate 4: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
GAR
general action
recognition
Question: <image><image><image><image>
What is the action performed by the person in the video?
Options:
A. rock scissors paper
B. sword fighting
C. fencing
D. balloon blowing
Question: <image><image><image><image>
What is the action performed by the person in the video?
Options:
A. rock scissors paper
B. sword fighting
C. fencing
D. balloon blowing
HR
handwritten
retrieval
Question: <image><image><image><image>
<image>Please retrieve the most similar handwritten
text snapshot to the query in the candidates.
The first image is the query image and the remaining
images are candidates from Candidate 1 to Candidate 4.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please retrieve the most similar handwritten text
snapshot to the query: <image>in the candidates:
Candidate 1: <image>, Candidate 2: <image>,
Candidate 3: <image>, Candidate 4: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
I2IR
image2image
retrieval
Question: <image><image><image><image>
<image>Please retrieve the most similar scene to the query
in the candidates. The first image is the query image
and the remaining images are candidates from Candidate 1
to Candidate 4.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please retrieve the most similar scene to the
query: <image>in the candidates: Candidate 1: <image>,
Candidate 2: <image>, Candidate 3: <image>,
Candidate 4: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
IC
image
colorization
Question: <image><image><image><image>
The following images are candidates from Candidate 1
to Candidate 4, which are from the same picture
consisting of four styles: grayscale, original, warm, and sepia.
Which one is the original picture?
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: The following images: Candidate 1: <image>,
Candidate 2: <image>, Candidate 3: <image>,
Candidate 4: <image>, are from the same picture,
which consists of four styles: grayscale, original,
warm, and sepia. Which one is the original picture?
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
MVU
meme video
understanding
Question: <image><image><image><image>
Please generate a description for this meme
Options:
A. From beneath the toilet door panel, a hand is reaching
out with an upward-facing palm to receive chopsticks
and a spoon from someone outside.
B. The hand is asking for help to get out of the bathroom.
C. The hand is actually reaching out for a handshake.
D. A person is handing over toilet paper instead of
chopsticks and a spoon.
Question: <image><image><image><image>
Please generate a description for this meme
Options:
A. From beneath the toilet door panel, a hand is
reaching out with an upward-facing palm to receive
chopsticks and a spoon from someone outside.
B. The hand is asking for help to get out of the bathroom.
C. The hand is actually reaching out for a handshake.
D. A person is handing over toilet paper instead of
chopsticks and a spoon.
表 A7: 需要多个图像作为输入的任务的缩写(第二部分)。 在这里,我们还介绍了用于单图像 LVLM 和多图像 LVLM 的设计提示示例。
Task Abbreviation Task Name Prompt Example for Single Image LVLMs Prompt example for Multiple Image LVLMs
ME mevis
Question: <image><image><image><image>
<image><image><image><image><image>
I have provided several frames from a video, and
I will also provide a caption. Provide the output for
the detected area in the format [x, y, w, h].
This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left
corner of the bounding box, as well as its width and height.
Note that the width of the input image is 1920 and
the height is 945.
CAPTION: little girl feeding rabbit
Options:
A. [70, 0, 993, 1007]
B. [203, 0, 1011, 944]
C. [70, 0, 1011, 944]
D. [196, 38, 652, 277]
Question: <image><image><image><image>
<image><image><image><image><image>
I have provided several frames from a video, and I will also
provide a caption. Provide the output for the detected area
in the format [x, y, w, h]. This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left corner
of the bounding box, as well as its width and height.
Note that the width of the input image is 1920 and the height is 945.
CAPTION: little girl feeding rabbit
Options:
A. [70, 0, 993, 1007]
B. [203, 0, 1011, 944]
C. [70, 0, 1011, 944]
D. [196, 38, 652, 277]
MIC
multiple image
captioning
Question: <image><image><image><image>
<image>Describe this set of images briefly.
Options:
A. I took a cab to return to the hotel
B. the front of the mall was somewhat crowded .
i ran past them and took the escalator down .
after shopping for a few hours , i returned to the street .
i tried to catch a cab but a bush blocked me .
i decided to just walk back to my hotel .
C. the mall was empty and I took the stairs up
D. I quickly caught a bus to my hotel
Question: Describe this set of images:
<image><image><image><image><image>briefly.
Options:
A. I took a cab to return to the hotel
B. the front of the mall was somewhat crowded .
i ran past them and took the escalator down .
after shopping for a few hours , i returned to the street .
i tried to catch a cab but a bush blocked me .
i decided to just walk back to my hotel .
C. the mall was empty and I took the stairs up
D. I quickly caught a bus to my hotel
NIP
next img
prediction
Question: <image><image><image><image>
<image>Please predict the last 10 frames in the
candidates of the video based on the first 10 frames of
the input video. Note that the order is from left to right.
The first four images are candidates from Candidate 1
to Candidate 4 and the last image shows the first 10 frames
of the input video.
Options:
A. Candidate 1: last 10 frames
B. Candidate 2: last 10 frames
C. Candidate 3: last 10 frames
D. Candidate 4: last 10 frames
Question: Please predict the last 10 frames in the
candidates: Candidate 1: <image>, Candidate 2: <image>,
Candidate 3: <image>, Candidate 4: <image>, of the video:
based on the first 10 frames of the input video: <image>.
Note that the order is from left to right
Options:
A. Candidate 1: last 10 frames
B. Candidate 2: last 10 frames
C. Candidate 3: last 10 frames
D. Candidate 4: last 10 frames
OSD
one shot
detection
Question: <image><image>According to the prompts in the
Support Image (marked in red), please detect the corresponding
object in the Query Image. The first image is the Support Image
and the second image is the Query Image.
Provide the output for the object in the format [x, y, w, h].
This format represents the bounding box, where [x, y, w, h] are the
coordinates of the top-left corner of the bounding box,
as well as its width and height.
Note that the width of the input RGB image is 224
and the height is 224.
Options:
A. [0, 0, 511, 2]
B. [0, 0, 426, 1]
C. [1, 1, 511, 2]
D. [0, 0, 499, 2]
Question: According to the prompts in the Support Image
(marked in red): <image>, please detect the corresponding
object in the Query Image: <image>.
Provide the output for the object in the format [x, y, w, h].
This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left corner
of the bounding box, as well as its width and height.
Note that the width of the input RGB image is 224 and
the height is 224.
Options:
A. [0, 0, 511, 2]
B. [0, 0, 426, 1]
C. [1, 1, 511, 2]
D. [0, 0, 499, 2]
PRe person reid
Question: <image><image><image><image>
<image>Please retrieve the most similar person to
the query in the candidates. The first image is the query
image and the remaining images are candidates from
Candidate 1 to Candidate 4.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please retrieve the most similar person to the
query: <image>in the candidates: Candidate 1: <image>,
Candidate 2: <image>, Candidate 3: <image>,
Candidate 4: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
PT point tracking
Question: <image><image>What is the position coordinates
of the point with coordinates ([0.711, 0.154]) in the first image
within the second image? Note that the width of the input
RGB image is 256 and the height is 256.
Options:
A. [0.336, 0.241]
B. [0.754, 0.592]
C. [0.711, 0.154]
D. [0.814, 0.269]
Question: What is the position coordinates of the point
with coordinates ([0.711, 0.154]) in Frame 1: <image>
within the Frame 2: <image>?
Note that the width of the input RGB image is 256
and the height is 256.
Options:
A. [0.336, 0.241]
B. [0.754, 0.592]
C. [0.711, 0.154]
D. [0.814, 0.269]
表 A8: 需要多个图像作为输入的任务的缩写(第三部分)。 在这里,我们还介绍了用于单图像 LVLM 和多图像 LVLM 的设计提示示例。
Task Abbreviation Task Name Prompt Example for Single Image LVLMs Prompt example for Multiple Image LVLMs
SODRD
salient object
detection rgbd
Question: <image><image>The first image is RGB image
and the second image is the corresponding depth map.
Please detect the salient foreground object in this RGB
image and represent them using a single bounding box.
Provide the output for the detected area in the format [x, y, w, h].
This format represents the bounding box, where [x, y, w, h] are the
coordinates of the top-left corner of the bounding box, as well as
its width and height.
Note that the width of the input RGB image is 640 and the height is 480.
Options:
A. [267, 105, 119, 209]
B. [85, 307, 65, 79]
C. [318, 294, 111, 156]
D. [267, 105, 135, 241]
Question: The first image is RGB image: <image>
and the second image is the corresponding depth map: <image>.
Please detect the salient foreground object in this RGB image
and represent them using a single bounding box.
Provide the output for the detected area in the format [x, y, w, h].
This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left corner of
the bounding box, as well as its width and height.
Note that the width of the input RGB image is 640
and the height is 480.
Options:
A. [267, 105, 119, 209]
B. [85, 307, 65, 79]
C. [318, 294, 111, 156]
D. [267, 105, 135, 241]
SLR
sign language
recognition
Question: <image><image><image><image>
What is the sign language gesture performed
by the person in the video?
Options:
A. fashionable
B. trendy
C. fascinating
D. cool
Question: <image><image><image><image>
What is the sign language gesture performed
by the person in the video?
Options:
A. fashionable
B. trendy
C. fascinating
D. cool
SOT
single object
tracking
Question: <image><image>Here is an object (marked as RED box)
in the first image. Please give the coordinations
of this object in the second image.
Provide the output for the object in the format [x, y, w, h].
This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left corner
of the bounding box, as well as its width and height.
Note that the width of the input RGB image is 1280
and the height is 720.
Options:
A. [148.0, 187.0, 918, 487]
B. [148.0, 187.0, 792.0, 533.0]
C. [0, 187, 792.0, 533.0]
D. [149, 451, 263, 24]
Question: Here is an object (marked as RED box)
in the Frame 1: <image>. Please give the coordinations
of this object in the Frame 2: <image>.
Provide the output for the object in the format [x, y, w, h].
This format represents the bounding box,
where [x, y, w, h] are the coordinates of the top-left corner
of the bounding box, as well as its width and height.
Note that the width of the input RGB image is 1280
and the height is 720.
Options:
A. [148.0, 187.0, 918, 487]
B. [148.0, 187.0, 792.0, 533.0]
C. [0, 187, 792.0, 533.0]
D. [149, 451, 263, 24]
S2IR
sketch2image
retrieval
Question: <image><image><image><image>
Please retrieve the most similar image to the Query
Image in the candidate Images. The first image is the
query image and the remaining images are candidates
from Candidate 1 to Candidate 3.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
Question: Please retrieve the most similar image to the
Query Image: <image>in the candidate Images:
Candidate 1: <image>, Candidate 2: <image>,
Candidate 3: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
SD spot the diff
Question: <image><image>The following is a description
of the differences between two pictures. Which one is incorrect?
Options:
A. The images show different types of flowers in full bloom,
with colorful petals and green leaves.
B. there is a car driving by in the right picture
C. there is a car leaving the lot in the left picture
Question: The following is a description of the differences
between two pictures: <image><image>. Which one is incorrect?
Options:
A. The images show different types of flowers in full bloom,
with colorful petals and green leaves.
B. there is a car driving by in the right picture
C. there is a car leaving the lot in the left picture
SS
spot the
similarity
Question: <image><image>Are there any
similarities between the two pictures?
Options:
A. Yes
B. No
Question: <image><image>Are there any
similarities between the two pictures?
Options:
A. Yes
B. No
TA
temporal
anticipation
Question: <image><image><image><image>
What will the person do next with the medicine?
Options:
A. Apply topically
B. Inject intravenously
C. Throw away
D. Eat
Question: <image><image><image><image>
What will the person do next with the medicine?
Options:
A. Apply topically
B. Inject intravenously
C. Throw away
D. Eat
TL
temporal
localization
Question: <image><image><image><image>
Given the sequence of images, please identify the image
consistent with the text description: Billiards.
The image index starts from 0.
Options:
A. Image 0
B. Image 1
C. Image 2
D. Image 3
Question: Given the sequence of images: Image 0: <image>,
Image 1: <image>, Image 2: <image>, Image 3: <image>,
please identify the image consistent with the text
description: Billiards.
Options:
A. Image 0
B. Image 1
C. Image 2
D. Image 3
表 A9: 需要多个图像作为输入的任务的缩写(第四部分)。 在这里,我们还介绍了用于单图像 LVLM 和多图像 LVLM 的设计提示示例。
Task Abbreviation Task Name Prompt Example for Single Image LVLMs Prompt example for Multiple Image LVLMs
TL
temporal
localization
Question: <image><image><image><image>
Given the sequence of images, please identify the image
consistent with the text description: Billiards.
The image index starts from 0.
Options:
A. Image 0
B. Image 1
C. Image 2
D. Image 3
Question: Given the sequence of images: Image 0: <image>,
Image 1: <image>, Image 2: <image>, Image 3: <image>,
please identify the image consistent with the text
description: Billiards.
Options:
A. Image 0
B. Image 1
C. Image 2
D. Image 3
TO temporal ordering
Question: <image><image><image><image>
Please predict the order of the following pictures,
and give each picture a sequential index.
This index starts from 0. The larger the index, the later the order.
Options:
A. [3, 0, 2, 1]
B. [2, 0, 1, 3]
C. [0, 2, 1, 3]
D. [1, 3, 2, 0]
Question: Please predict the order of the following pictures:
<image><image><image><image>, and give each
picture a sequential index.
This index starts from 0. The larger the index, the later the order.
Options:
A. [3, 0, 2, 1]
B. [2, 0, 1, 3]
C. [0, 2, 1, 3]
D. [1, 3, 2, 0]
T2IR
text2image
retrieval
Question: <image><image><image><image>
Please find the most relevant picture among the candidate images
for this description.
The given images are candidates from Candidate 1 to Candidate 4.
Description:
this flower has petals that are green with stringy purple stamen
this flower is white and blue in color, with petals that are
oval shaped.
the petals on this flower are white with an elaborate pistil.
the flower is unique because the petals aren’t separated and
they have a round tip
this flower has blue petals as well as a green and purple pistil.
this flower has thick and pale green petals under a thick fringe of
purple and white.
this flower has petals that are white and has stringy stamen
this flower has white oblong petals and white flat filaments.
a flower with long and narrow petals that are whtie.
a flower with long and narrow petals that are whtie.
Options: A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please find the most relevant picture among the
candidate images: Candidate 1: <image>, Candidate 2: <image>,
Candidate 3: <image>, Candidate 4: <image>, for this description.
Description:
this flower has petals that are green with stringy purple stamen
this flower is white and blue in color, with petals that are
oval shaped.
the petals on this flower are white with an elaborate pistil.
the flower is unique because the petals aren’t separated and
they have a round tip
this flower has blue petals as well as a green and purple pistil.
this flower has thick and pale green petals under a thick fringe of
purple and white.
this flower has petals that are white and has stringy stamen
this flower has white oblong petals and white flat filaments.
a flower with long and narrow petals that are whtie.
a flower with long and narrow petals that are whtie.
Options: A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
3DCR
3D cad
recognition
Question: <image><image><image><image>
<image><image>What is the category of the point
cloud based on the multi-view of the point cloud?
Options:
A. telephone
B. chair
C. table
D. sofa
Question: <image><image><image><image>
<image><image>What is the category of the point
cloud based on the multi-view of the point cloud?
Options:
A. telephone
B. chair
C. table
D. sofa
3DIR
3D indoor
recognition
Question: <image><image><image><image>
<image><image>What is the category of the point cloud
based on the multi-view of the point cloud?
Options:
A. sink
B. bed
C. cabinet
D. bag
Question: <image><image><image><image>
<image><image>What is the category of the point
cloud based on the multi-view of the point cloud?
Options:
A. sink
B. bed
C. cabinet
D. bag
VR vehicle retrieval
Question: <image><image><image><image>
<image>Please retrieve the most similar vehicle
to the query in the candidates. The first image is the query
image and the remaining images are candidates from
Candidate 1 to Candidate 4.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
Question: Please retrieve the most similar vehicle to
the query: <image>in the candidates:
Candidate 1: <image>, Candidate 2: <image>,
Candidate 3: <image>, Candidate 4: <image>.
Options:
A. Candidate 1
B. Candidate 2
C. Candidate 3
D. Candidate 4
VC video captioning
Question: <image><image><image><image>
Please generate textual descriptions for a sequence of video frames.
Options:
A. a woman is speaking into a microphone
B. a man is playing guitar on stage
C. a man is speaking into a microphone
D. a man is typing on a computer keyboard
Question: Please generate textual descriptions for
a sequence of video frames:
<image><image><image><image>.
Options:
A. a woman is speaking into a microphone
B. a man is playing guitar on stage
C. a man is speaking into a microphone
D. a man is typing on a computer keyboard
Refer to caption
图A2: 比较 19 个 MMT-Bench 子任务的检测任务的坐标格式,报告平均准确度。
Refer to caption
图A3: 20 个 LVLM 跨 13 种视觉输入的性能。
Refer to caption
图A4: 跨 14 种功能的 20 个 LVLM 的性能。

附录 G案例研究

表 A10: 按元任务列出的案例研究数据表索引以及每个 LVLM 的相关(错误)类别。
Case Figure Meta-task Subtask GPT-4V GeminiProVision InternVL-Chat
Fig. A5 Visual Recognition Landmark Recognition Lack of Knowledge No Error No Error
Fig. A6 Object Localization Camouflaged Object Detection Lack of Capability Perception Error Perception Error
Fig. A7 Pixel-level Recognition Image Matting Perception Error No Error Perception Error
Fig. A8 OCR Handwritten Text Recognition No Error Perception Error Perception Error
Fig. A9 Visual Prompt Understanding Visual Prompt Understanding No Error Perception Error Fail to Follow Instruct No Error
Fig. A10 Retrieval Sketch to Image Retrieval Perception Error No Error Perception Error Reasoning Error
Fig. A11 Counting Counting by Reasoning Perception Error Perception Error No Error
Fig. A12 Keypoint Detection Human Keypoint Detection Refuse to Answer Perception Error Fail to Follow Instruct Fail to Follow Instruct
Fig. A13 Action Recognition Sign Language Recognition Lack of Capability Perception Error Perception Error
Fig. A14 Visual Hallucination Exist Hallucination No Error Reasoning Error Perception Error
Fig. A15 Anomaly Detection Industrial Produce Anomaly Detection Lack of Knowledge No Error Perception Error
Fig. A16 Image-to-Image Translation Jigsaw Puzzle Solving No Error Perception Error Perception Error
Fig. A17 Visual Summary Image Captioning Paragraph Perception Error No Error Perception Error
Fig. A18 Intelligence Quotient Test Ravens Progressive Matrices No Error Reasoning Error Reasoning Error
Fig. A19 Emotional Quotient Test Scene Emotion Recognition Perception Error Reasoning Error Reasoning Error No Error
Fig. A20 Visual Grounding Referring Detection Perception Error Perception Error Fail to Follow Instruct
Fig. A21 Visual Commonsense Reasoning Whoops Reasoning Error Perception Error Perception Error
Fig. A22 Chart, Doc Understanding Clock Reading Perception Error Perception Error Perception Error
Fig. A23 Relation Reasoning Scene Graph Recognition No Error Perception Error No Error
Fig. A24 Meme Understanding Meme Image Understanding Perception Error No Error No Error
Fig. A25 Multi-Image Analysis Spot the Diff No Error No Error No Error
Fig. A26 Temporal Understanding Temporal Ordering Perception Error No Error Perception Error
Fig. A27 Cross-Image Matching Single Object Tracking Lack of Capability Perception Error Perception Error
Fig. A28 Visual Coding Equation to Latex Perception Error Perception Error No Error
Fig. A29 Visual Illusion Color Constancy Perception Error No Error Perception Error
Fig. A30 Image Evaluation Judgement LVLM Response Judgement Reasoning Error No Error Perception Error
Fig. A31 3D Perception 3D CAD Recognition Lack of Capability No Error No Error
Fig. A32 Emodied Agent Navigation Fail to Follow Instruct Fail to Follow Instruct Fail to Follow Instruct
Fig. A33 Medical Understanding Medical Modality Recognition No Error No Error Perception Error
Fig. A34 Autonomous Driving Traffic Light Understanding Refuse to Answer No Error No Error
Fig. A35 GUI Navigation Installation Perception Error Perception Error Perception Error
Fig. A36 Discipline Knowledge Reasoning Art and Design Lack of Knowledge Lack of Knowledge Lack of Knowledge

在本节中,我们对 GPT-4V、GeminiProVision 和 InternVL-Chat 在 MMT-Bench 中的各种元任务上所犯的错误类型进行案例研究分析。 我们将错误分为以下六类:

Perception Error

:LVLM 无法识别、分类或检测图像中的对象或内容。 大多数 LVLM 都受到视觉编码器表示能力的限制,这使得这是最常见的错误类型。 参见图A6、图A8等示例。

Reasoning Error

:LVLM 正确识别和感知视觉内容,但在推理中出错,导致错误的答案。 参见图A21、图A30等示例。

Lack of Knowledge

:LVLM 缺乏回答专门问题所需的特定领域知识,例如地标的位置(见图 A5)或特定绘画的创作日期(见图 A36)。

Lack of Capability

:LVLM不具备解决相应任务的能力。 这种错误类型在 GPT-4V 中尤其明显,当它缺乏处理某些任务的能力时,它往往会更诚实地做出响应。 相比之下,其他 LVLM 模型即使在准确率相对较低的情况下也倾向于生成输出。 参见图A6、图A13中的示例。

Refuse to Answer

:LVLM,例如 GPT-4V 或 Gemini,拒绝回答以人类为中心或本质上敏感的问题。 参见图A12、图A34中的示例。

Fail to Follow Instruct

:LVLM 无法正确理解指令并提供错误的答案。 例如,LVLM 可能无法理解指令中的指定条件(参见图 A9),或者可能完全忽略该指令,而是为给定图像生成标题(参见图 A12)。

Refer to caption
图A5: 视觉识别(地标识别)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A6: 对象定位的示例案例(伪装对象检测)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A7: 像素级识别(图像抠图)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A8: OCR(手写文本识别)示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A9: 视觉提示理解示例案例(视觉提示理解)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A10: 检索示例(sketch2image 检索)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A11: 计数示例(推理计数)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A12: 关键点检测(人体关键点检测)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A13: 动作识别(手语识别)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A14: 幻视示例(存在幻觉)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A15: 异常检测示例(工业生产异常检测)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A16: 图像到图像转换的示例案例(拼图游戏)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A17: 视觉摘要示例(图像标题段落)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A18: 智商测试示例(乌鸦渐进矩阵)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A19: 情商测试示例案例(场景情感识别)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A20: 视觉接地的示例案例(参考检测)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A21: 视觉常识的示例案例(哎呀)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A22: 图表、文档理解(时钟阅读)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A23: 关系推理(场景图识别)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A24: 模因理解(模因图像理解)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A25: 多图像分析示例(找出差异)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A26: 时间理解(时间排序)的示例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A27: 跨图像匹配(单个对象跟踪)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A28: 视觉编码的示例(与乳胶等式)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A29: 视觉错觉(颜色恒常性)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A30: 图像评价判定(LVLM响应判定)的示例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A31: 3D感知(3D CAD识别)示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A32: 体现代理(导航)的示例案例。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A33: 医学理解示例(医学形态识别)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A34: 自动驾驶示例案例(红绿灯理解)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A35: GUI 导航示例(安装)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引
Refer to caption
图A36: 学科知识推理示例案例(艺术与设计)。 Green 突出显示正确答案。 Red 突出显示错误答案。 返回表索引

附录 H MMT-Bench 与其他 OCR 相关任务基准的比较

表 A11: OCR相关样本不同评价基准的统计。 Token 数量由OpenAI的tiktoken包计算得出。
Words Number Tokens Number
Benchmark Sample Num Task Type Average Min Middle Max std Average Min Middle Max std
MME (Fu et al., 2023) 40 1 2.5 1 2 5 1 3.9 1 3 8 1.6
MMBench (dev+test) (Liu et al., 2023c) 608 - 7.3 1 6 54 7 8.3 1 6 78 9.3
Tiny-LVLM-eHub (Shao et al., 2023) 600 1 1 1 1 1 0 2.2 1 2 8 1.1
MMT-Bench (Ours) 600 4 14.8 1 1.5 103 22.7 20.4 1 5 150 31.4

为了支持之前的评估基准在 OCR 任务中遭受文本稀缺的说法,我们在表中对来自不同基准的 OCR 相关样本进行了比较分析。 A11 结果表明,MME 和 Tiny-LVLM-eHub 等数据集的文本长度相对较短,变化有限。 此外,以前的 OCR 任务主要集中于直接从给定场景或裁剪图像输出文本。 相比之下,我们提出的 MMT-Bench 基准引入了几个新任务,例如字体识别、手写识别、手写公式识别以及基于文档的问答和图表问答。 这些新增内容显着增加了评估 OCR 任务模型性能的挑战。 与之前的基准相比,MMT-Bench的OCR样本的平均字数和词符数是MME的5倍以上,是MMBench的2倍以上。 此外,MMT-Bench 包含更高比例的长文本样本,且文本长度范围更广。 这证明了MMT-Bench在解决OCR任务中文本稀缺问题方面的优越性,为综合评估多模态算法在OCR相关任务上的性能提供了更可靠的基准。

附录一关于基准构建的一些细节

I.1 元数据

表 A12: 元数据的格式。
Keys Example 1 Example 2
image path /path/to/image /path/to/image
data source animals90 from Kaggle ReasonSeg
subtask name Animal Recognition Reason Seg
meta-task name Visual Recognition Visual Grounding
specific question template What category of animal is shown in the picture? Please provide the bounding box coordinates for the described object or area using the format [x1, y1, x2, y2]. QUESTION:{Referring Expression}
answer rat [801, 440, 1554,956]
visual prompt Natural Image Natural Image
capabilities Visual Recognition Visual Reasoning,Visual Localization
(specific) category space squirrel, hamster, bird, dog, cat… -
(specific) referring expression - the objects that can protect the snail and prevent it from getting injured

元数据的统一格式 如表所示。