arxiv GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training

/documents/71516/

基本信息

文件基本信息

名称
GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training
描述
尽管多模态大型语言模型 (MLLM) 精通一般任务,但在自动几何问题解决 (GPS) 方面却遇到了困难,这需要理解图表、解释符号并执行复杂的推理。这种限制源于他们对自然图像和文本的预训练,以及解决问题过程中缺乏自动验证。此外,当前的几何专家受到特定任务设计的限制,这使得他们在解决更广泛的几何问题时效率较低。为此,我们提出了 GeoX,一个专注于几何理解和推理任务的多模态大型模型。鉴于几何图符号和自然图像文本之间的显着差异,我们引入单模态预训练来开发图编码器和符号解码器,增强对几何图像和语料库的理解。此外,我们引入了几何语言对齐,这是一种有效的预训练范例,可以弥合单峰几何专家之间的模态差距。我们提出了一种生成器和采样器转换器(GS-Former)来生成判别性查询并消除不均匀分布的几何信号中的无信息表示。最后,GeoX 受益于视觉指令调整,使其能够将几何图像和问题作为输入并生成可验证的解决方案。实验表明,GeoX 在公共认可的基准测试(例如 GeoQA、UniGeo、Geometry3K 和 PGPS9k)上均优于通才和几何专家 ...