基本信息

文件基本信息

名称

Interleaved-Modal Chain-of-Thought

首页

https://yiyibooks.cn/arxiv/2411.19488v2/index.html

原始地址

https://arxiv.org/abs/2411.19488

描述

思维链 (CoT) 提示会引发大型语言模型 (LLM) 在得出最终答案之前产生一系列中间推理步骤。然而，当过渡到视觉语言模型（VLM）时，它们的纯文本原理很难表达与原始图像的细粒度关联。在本文中，我们提出了一种结合图像的多模态思维链，名为 \textbf{Interleaved-modal Chain-of-Thought (ICoT)}，它生成由成对的视觉和文本基本原理组成的顺序推理步骤，以推断最终答案。直观地说，新颖的 ICoT 需要 VLM 能够生成细粒度的交错模态内容，这对于当前的 VLM 来说很难实现。考虑到所需的视觉信息通常是输入图像的一部分，我们提出\textbf{注意力驱动选择（ADS）}来在现有VLM上实现ICoT。 ADS 智能地插入输入图像的区域，以生成交错模态推理步骤，并且附加延迟可忽略不计。 ADS 仅依赖于 VLM 的注意力图，无需参数化，因此它是一种即插即用策略，可以推广到一系列 VLM。我们应用ADS在两种不同架构的流行VLM上实现ICoT。对三个基准的广泛评估表明，与现有的多模式 CoT 提示方法相比，ICoT 提示实现了显着的性能（高达 14%）和可解释性改进 ...