arxiv Interleaved-Modal Chain-of-Thought

/documents/74431/

基本信息

文件基本信息

名称
Interleaved-Modal Chain-of-Thought
描述
思维链 (CoT) 提示会引发大型语言模型 (LLM) 在得出最终答案之前产生一系列中间推理步骤。然而,当过渡到视觉语言模型(VLM)时,它们的纯文本原理很难表达与原始图像的细粒度关联。在本文中,我们提出了一种结合图像的多模态思维链,名为 \textbf{Interleaved-modal Chain-of-Thought (ICoT)},它生成由成对的视觉和文本基本原理组成的顺序推理步骤,以推断最终答案。直观地说,新颖的 ICoT 需要 VLM 能够生成细粒度的交错模态内容,这对于当前的 VLM 来说很难实现。考虑到所需的视觉信息通常是输入图像的一部分,我们提出\textbf{注意力驱动选择(ADS)}来在现有VLM上实现ICoT。 ADS 智能地插入输入图像的区域,以生成交错模态推理步骤,并且附加延迟可忽略不计。 ADS 仅依赖于 VLM 的注意力图,无需参数化,因此它是一种即插即用策略,可以推广到一系列 VLM。我们应用ADS在两种不同架构的流行VLM上实现ICoT。对三个基准的广泛评估表明,与现有的多模式 CoT 提示方法相比,ICoT 提示实现了显着的性能(高达 14%)和可解释性改进 ...