基本信息

文件基本信息

名称

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

首页

https://yiyibooks.cn/arxiv/2412.11863v2/index.html

原始地址

https://arxiv.org/abs/2412.11863

描述

尽管多模态大型语言模型 (MLLM) 精通一般任务，但在自动几何问题解决 (GPS) 方面却遇到了困难，这需要理解图表、解释符号并执行复杂的推理。这种限制源于他们对自然图像和文本的预训练，以及解决问题过程中缺乏自动验证。此外，当前的几何专家受到特定任务设计的限制，这使得他们在解决更广泛的几何问题时效率较低。为此，我们提出了 GeoX，一个专注于几何理解和推理任务的多模态大型模型。鉴于几何图符号和自然图像文本之间的显着差异，我们引入单模态预训练来开发图编码器和符号解码器，增强对几何图像和语料库的理解。此外，我们引入了几何语言对齐，这是一种有效的预训练范例，可以弥合单峰几何专家之间的模态差距。我们提出了一种生成器和采样器转换器（GS-Former）来生成判别性查询并消除不均匀分布的几何信号中的无信息表示。最后，GeoX 受益于视觉指令调整，使其能够将几何图像和问题作为输入并生成可验证的解决方案。实验表明，GeoX 在公共认可的基准测试（例如 GeoQA、UniGeo、Geometry3K 和 PGPS9k）上均优于通才和几何专家 ...