- 名称
- MMBench: Is Your Multi-modal Model an All-around Player?
- 描述
大型视觉语言模型最近取得了显着的进展,表现出对视觉信息的强大感知和推理能力。然而,如何有效评估这些大型视觉语言模型仍然是阻碍未来模型发展的主要障碍。 VQAv2 或 COCO Caption 等传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和不稳健的评估指标 ...
大型视觉语言模型最近取得了显着的进展,表现出对视觉信息的强大感知和推理能力。然而,如何有效评估这些大型视觉语言模型仍然是阻碍未来模型发展的主要障碍。 VQAv2 或 COCO Caption 等传统基准提供了定量的性能测量,但缺乏细粒度的能力评估和不稳健的评估指标 ...