Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer.然而,现有的 CoT 研究主要集中在语言情态上。 We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference.通过这种方式,答案推理可以更好地利用基于多模态信息生成的基本原理。 ScienceQA 和 A-OKVQA 基准数据集上的实验结果表明了我们提出的方法的有效性。借助 Multimodal-CoT,我们的模型在 10 亿个参数下在 ScienceQA 基准上实现了最先进的性能。我们的分析表明,Multimodal-CoT 具有减轻幻觉和提高收敛速度的优势。 Code is publicly available at this https URL. ...
我们研究了大型语言模型中出现的异常值的功能作用,特别是注意力池(一些持续接收大量注意力逻辑的 Token )和残差池(在大多数 Token 中具有持续较大激活的一些固定维度)。我们假设这些离群值与相应的归一化(\textit{e.g.}、softmax 注意力和 RMSNorm)相结合,可以有效地重新调整其他非离群值分量。我们将这种现象称为 \textit{离群值驱动的重新缩放},并在不同的模型架构和训练 Token 计数中验证这一假设。这种观点统一了两种汇类型的起源和缓解。我们的主要结论和观察包括:(1)离群值与归一化共同作用:去除归一化可以消除相应的离群值,但会降低训练的稳定性和性能;在保留标准化的同时直接修剪异常值会导致性能下降,这表明异常值驱动的重新缩放有助于训练稳定性。 (2)离群值更多地充当重新调整因素而不是贡献者,因为注意力和残余汇的最终贡献明显小于非离群值。 (3) 异常值可以被吸收到可学习参数中,或者通过显式门控重新缩放来减轻,从而提高训练性能(平均增益 2 点)并增强量化鲁棒性(在 W4A4 量化下降低 1.2 点) ...
本笔记以技术但希望是教学的方式介绍了三种最常见的神经网络架构形式:前馈、卷积和循环。对于每个网络,其基本构建块都有详细说明。然后完整导出反向传播算法的前向传播和更新规则 ...
大型语言模型 (LLM) 的最新进展促进了对 LLM 服务的需求大幅增长。虽然传统的基于云的 LLM 服务可以满足高精度要求,但它们无法满足低延迟和增强隐私的关键需求。为了解决这些限制,我们提出了 HAT,这是一种新颖的设备-云协作推理框架,它利用了 U 形推理和推测解码的互补优势。 HAT 将 LLM 划分为三个子模型,输入和输出子模型与轻量级适配器网络堆叠在一起,作为小语言模型 (SLM) 部署在每个终端设备上。同时,包含大部分 LLM 解码器层的中间子模型托管在云中,以使用设备上的 SLM 执行推测解码。在推理过程中,HAT 在设备和云之间交换输入或草稿 Token 的隐藏状态(而不是原始 Token ),从而导致严重的通信延迟。此外,处理长提示的隐藏状态会加剧云端的计算延迟,进一步降低推理效率。为了提高效率,我们引入了提示分块机制,将长提示分割成较短的块,从而实现并行传输和处理。此外,HAT 的实现是为了动态确定处理长提示的设备的最佳块大小,从而提高整体推理速度。在由 30 个 NVIDIA Jetson 设备和一台配备 8 个 NVIDIA A6000 GPU 的服务器组成的物理测试台上进行了大量实验。实验结果表明,HAT 实现了令人鼓舞的性能改进,与基线相比,TTFT 减少了 41% 至 54%,TBT 减少了 41% 至 77% ...
本研究提出了一种基于扩散反演的新图像超分辨率(SR)技术,旨在利用大型预训练扩散模型中封装的丰富图像先验来提高 SR 性能。我们设计了部分噪声预测策略来构建扩散模型的中间状态,作为起始采样点。我们方法的核心是深度噪声预测器,用于估计前向扩散过程的最佳噪声图。经过训练后,该噪声预测器可用于部分沿扩散轨迹初始化采样过程,从而生成所需的高分辨率结果。与现有方法相比,我们的方法提供了灵活高效的采样机制,支持任意数量的采样步骤(从一到五)。即使采用单个采样步骤,我们的方法也表现出比最近最先进的方法优越或相当的性能。代码和模型可通过此 https URL 公开获取 ...
在多模态大语言模型 (MLLM) 中,视觉投影仪在桥接预先训练的视觉编码器与 LLM 方面发挥着至关重要的作用,从而在利用 LLM 强大功能的同时实现深刻的视觉理解。尽管视觉投影仪很重要,但对其的探索相对较少。在这项研究中,我们首先确定了两个基本的投影仪属性:(i)管理视觉标记数量的灵活性,这对于 MLLM 的整体效率至关重要,以及(ii)从视觉特征中保留局部上下文,这对于空间理解至关重要。基于这些发现,我们提出了一种新颖的投影仪设计,既灵活又增强局部性,有效地满足了这两个理想的特性。此外,我们提出了有效利用多个和多方面的教学数据集的综合策略。通过大量的实验,我们研究了个体设计选择的影响。最后,我们提出的 MLLM Honeybee 在各种基准测试中显着优于以前最先进的方法,包括 MME、MMBench、SEED-Bench 和 LLaVA-Bench,实现了显着更高的效率。代码和模型可从此 https URL 获取 ...
这项工作展示了 ParGo,一种新颖的部分全局投影仪,旨在连接多模态大语言模型 (MLLM) 的视觉和语言模式。与之前依赖于基于全局注意力的投影仪的作品不同,我们的 ParGo 通过集成全局和局部视图,弥合了单独预训练的视觉编码器和 LLM 之间的表示差距,从而减轻了对突出区域的过度强调。为了促进 ParGo 的有效训练,我们收集了一个名为 ParGoCap-1M-PT 的大规模详细字幕图像文本数据集,由 100 万张图像和高质量字幕组成。对多个 MLLM 基准的广泛实验证明了我们的 ParGo 的有效性,突出了其在协调视觉和语言模式方面的优越性。与传统的 Q-Former 投影机相比,我们的 ParGo 在 MME 基准测试中提高了 259.96。此外,我们的实验表明,ParGo 显着优于其他投影仪,特别是在强调细节感知能力的任务中 ...
当前的多模态大语言模型 (MLLM) 通常通过连接器(例如 MLP)将预训练的 LLM 与另一个预训练的视觉转换器集成,从而赋予 LLM 视觉功能。然而,MLLM 中的两种嵌入策略(基于嵌入查找表的结构文本嵌入和由视觉编码器直接生成的连续嵌入)之间的不一致,给视觉和文本信息的更无缝融合带来了挑战。我们提出了 Ovis,一种新颖的 MLLM 架构,旨在在结构上对齐视觉和文本嵌入。 Ovis 将额外的可学习视觉嵌入表集成到视觉编码器的过程中。为了捕获丰富的视觉语义,每个图像块多次对视觉嵌入表进行索引,从而产生最终的视觉嵌入,它是索引嵌入的概率组合。这种结构方法反映了用于生成文本嵌入的方法。对各种多模态基准的实证评估表明,Ovis 的性能优于类似参数规模的开源 MLLM,甚至整体上超过了专有模型 Qwen-VL-Plus。这些结果凸显了 Ovis 结构化视觉表示在推进 MLLM 架构设计和促进更有效的多模式学习方面的潜力。代码、数据集和模型可从此 https URL 获取 ...
众多现代数据源的不规则性和多模态性质给传统深度学习算法带来了严峻的挑战。为此,最近的努力将现有算法通过图推广到不规则域,目的是通过底层图拓扑从数据中获得更多见解。与此同时,基于张量的方法在绕过维数诅咒带来的瓶颈方面表现出了有希望的结果。在本文中,我们介绍了一种新颖的多图张量网络(MGTN)框架,该框架在深度学习环境中利用图处理不规则数据源的能力以及张量网络的压缩特性。所提出框架的潜力通过基于 MGTN 的外汇 (FOREX) 算法交易深度 Q 代理得到了证明。凭借 MGTN,外汇货币图被用来为这项艰巨的任务强加具有经济意义的结构,从而在相对于三种竞争模型的情况下获得非常优越的性能,并且复杂性大大降低 ...
因果表示学习(CRL)已经引起了因果推理和人工智能界越来越多的兴趣,因为它能够利用现代数据集的异质性,将潜在复杂的数据生成机制分解为因果可解释的潜在特征。在本文中,我们通过关注潜在特征上的程式化线性结构因果模型并假设将潜在特征映射到观察到的数据或测量的线性混合函数,进一步为 CRL 文献做出了贡献。现有的线性 CRL 方法通常依赖于严格的假设,例如单节点介入数据的可访问性或对潜在特征和外生测量噪声的限制性分布约束。然而,在某些情况下,这些先决条件可能难以满足。在这项工作中,我们提出了一种新颖的线性 CRL 算法,与大多数现有的线性 CRL 方法不同,该算法在有关环境异质性和数据生成分布的较弱假设下运行,同时仍将潜在因果特征恢复到等价类。我们通过综合实验和大型语言模型(LLM)的可解释性分析进一步验证了我们的新算法,证明了它在有限样本中相对于竞争方法的优越性以及将因果关系集成到人工智能中的潜力 ...