主题驱动图像生成的最新进展已经实现了零镜头生成,但精确选择和关注关键主题表示仍然具有挑战性。为了解决这个问题,我们引入了 SSR 编码器,这是一种新颖的架构,旨在有选择地从单个或多个参考图像中捕获任何主题。它响应各种查询模式,包括文本和掩码,无需测试时微调。 SSR 编码器结合了 Token 到补丁对齐器(将查询输入与图像补丁对齐)和保留细节主题编码器(用于提取和保留主题的精细特征),从而生成主题嵌入。这些嵌入与原始文本嵌入结合使用,决定了生成过程。 SSR 编码器以其模型通用性和效率为特点,适用于一系列自定义模型和控制模块。通过嵌入一致性正则化损失来改进训练,我们的大量实验证明了其在多功能和高质量图像生成方面的有效性,表明了其广泛的适用性。项目页面:此 https URL ...
2019 年至今,是信息检索 (IR) 和自然语言处理 (NLP) 领域最大的范式转变之一,最终导致从 2022 年起强大的大型语言模型 (LLM) 的出现。利用预训练的仅编码器模型(例如 BERT)和 LLM 的方法优于许多以前的方法,特别是在零样本场景和复杂推理任务中表现出色。这项工作调查了 IR 模型架构的演变,重点关注两个关键方面:用于特征提取的骨干模型和用于相关性估计的端到端系统架构。该审查有意将架构考虑因素与培训方法分开,以便对 IR 系统的结构创新进行集中分析。我们追溯了从传统的基于术语的方法到现代神经方法的发展,特别强调了基于 Transformer 的模型和随后的大型语言模型 (LLM) 的影响。最后,我们对新出现的挑战和未来方向进行了前瞻性讨论,包括性能和可扩展性的架构优化、多模式、多语言数据的处理以及适应新颖的应用领域,例如超越传统搜索范式的自主搜索代理 ...
我们提出了自推测掩蔽扩散,这是一种用于离散数据的新型掩蔽扩散生成模型,需要显着更少的函数评估来生成样本。标准掩蔽扩散模型预测当前掩蔽位置上的因式分解逻辑。然后对多个屏蔽位置进行采样,然而,分解近似意味着一次性采样太多位置会导致样本质量较差。因此,需要许多模拟步骤和神经网络功能评估才能生成高质量的数据。我们通过对屏蔽位置生成非分解预测来减少计算负担。这是通过将最终的 Transformer 注意掩模从非因果修改为因果来实现的,通过新颖的模型集成推测采样机制实现草稿 Token 生成和并行验证。这会导致单次前向传播中屏蔽位置上的非因式分解预测分布。我们将我们的方法应用于 GPT2 规模的文本建模和蛋白质序列生成,发现相对于标准掩蔽扩散模型,我们可以将所需的网络前向传递数量减少约 2 倍 ...
最近的文本到图像(T2I)模型在生成视觉逼真和语义连贯的图像方面取得了显着进展。然而,它们仍然存在随机性和与给定提示不一致的问题,特别是当文本描述模糊或不明确时。现有的方法,例如即时重写、N 次最佳采样和自我改进,可以缓解这些问题,但通常需要额外的模块并独立运行,从而阻碍了测试时间的扩展效率并增加了计算开销。在本文中,我们介绍了 ImAgent,这是一种免训练的统一多模式代理,它将推理、生成和自我评估集成在一个框架内,以实现有效的测试时间扩展。在策略控制器的指导下,多个生成动作动态交互和自组织,以增强图像保真度和语义对齐,而无需依赖外部模型。关于图像生成和编辑任务的大量实验表明,ImAgent 在主干上持续改进,甚至超越了主干模型失败的其他强基线,凸显了统一多模态代理在测试时间缩放下自适应和高效图像生成的潜力 ...
视觉和语言导航(VLN)要求代理遵循自然语言指令并在以前未见过的环境中导航。由于其灵活性和推理能力,最近的方法越来越多地采用大型语言模型(LLM)作为高级导航器。然而,基于提示的 LLM 导航通常会遇到决策效率低下的问题,因为模型必须从头开始重复解释指令,并在每一步对嘈杂且冗长的可导航候选人进行推理。在本文中,我们提出了一种检索增强框架,以提高基于 LLM 的 VLN 的效率和稳定性,而无需修改或微调底层语言模型。我们的方法在两个互补的层面上引入了检索。在情节级别,指令级嵌入检索器选择语义相似的成功导航轨迹作为上下文示例,为指令基础提供特定于任务的先验。在步骤级别,模仿学习的候选检索器在 LLM 推理之前修剪不相关的可导航方向,从而减少动作模糊性和提示复杂性。这两个检索模块都是轻量级、模块化的,并且独立于 LLM 进行训练。我们在 Room-to-Room (R2R) 基准上评估我们的方法。实验结果表明,在可见和不可见的环境中,成功率、Oracle 成功率和 SPL 均得到了持续改进。消融研究进一步表明,指令级样本检索和候选修剪为全局指导和逐步决策效率提供了互补的好处。这些结果表明,检索增强决策支持是增强基于 LLM 的视觉和语言导航的有效且可扩展的策略 ...
近年来,端到端驾驶取得了重大进展,在开环和闭环设置下展示了系统简单性和有竞争力的驾驶性能等优点。然而,其驾驶决策缺乏可解释性和可控性阻碍了端到端驾驶系统的实际部署。在本文中,我们利用 CARLA 模拟器收集了一个名为 DriveCoT 的全面的端到端驾驶数据集。它包含传感器数据、控制决策和指示推理过程的思想链标签。我们利用 CARLA 排行榜 2.0 中涉及高速驾驶和变道的挑战性驾驶场景,提出基于规则的专家策略来控制车辆并为其在不同驾驶方面的推理过程和最终决策生成地面实况标签。该数据集可以作为开环端到端驾驶基准,能够评估各个思维链方面的准确性和最终决策。此外,我们提出了一个名为 DriveCoT-Agent 的基线模型,在我们的数据集上进行训练,以生成思想链预测和最终决策。经过训练的模型在开环和闭环评估中都表现出强大的性能,证明了我们提出的数据集的有效性 ...
表征学习是自然语言处理(NLP)的基础。这项工作提出了利用视觉信息作为一般 NLP 任务的辅助信号的新方法。对于每个句子,我们首先从现有句子-图像对上提取的轻型主题-图像查找表或在现成的文本-图像对上预先训练的共享跨模式嵌入空间中检索灵活数量的图像。然后,文本和图像分别由 Transformer 编码器和卷积神经网络进行编码。这两个表示序列通过注意层进一步融合,以实现两种模式的交互。本研究中检索过程可控且灵活。通用视觉表示克服了大规模双语句子图像对的缺乏。我们的方法可以轻松应用于纯文本任务,无需手动注释多模态并行语料库。我们将所提出的方法应用于广泛的自然语言生成和理解任务,包括神经机器翻译、自然语言推理和语义相似性。实验结果表明,我们的方法对于不同的任务和语言普遍有效。分析表明,视觉信号丰富了内容词的文本表示,提供了有关概念和事件之间关系的细粒度基础信息,并可能有助于消歧 ...
Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer.然而,现有的 CoT 研究主要集中在语言情态上。 We propose Multimodal-CoT that incorporates language (text) and vision (images) modalities into a two-stage framework that separates rationale generation and answer inference.通过这种方式,答案推理可以更好地利用基于多模态信息生成的基本原理。 ScienceQA 和 A-OKVQA 基准数据集上的实验结果表明了我们提出的方法的有效性。借助 Multimodal-CoT,我们的模型在 10 亿个参数下在 ScienceQA 基准上实现了最先进的性能。我们的分析表明,Multimodal-CoT 具有减轻幻觉和提高收敛速度的优势。 Code is publicly available at this https URL. ...
我们研究了大型语言模型中出现的异常值的功能作用,特别是注意力池(一些持续接收大量注意力逻辑的 Token )和残差池(在大多数 Token 中具有持续较大激活的一些固定维度)。我们假设这些离群值与相应的归一化(\textit{e.g.}、softmax 注意力和 RMSNorm)相结合,可以有效地重新调整其他非离群值分量。我们将这种现象称为 \textit{离群值驱动的重新缩放},并在不同的模型架构和训练 Token 计数中验证这一假设。这种观点统一了两种汇类型的起源和缓解。我们的主要结论和观察包括:(1)离群值与归一化共同作用:去除归一化可以消除相应的离群值,但会降低训练的稳定性和性能;在保留标准化的同时直接修剪异常值会导致性能下降,这表明异常值驱动的重新缩放有助于训练稳定性。 (2)离群值更多地充当重新调整因素而不是贡献者,因为注意力和残余汇的最终贡献明显小于非离群值。 (3) 异常值可以被吸收到可学习参数中,或者通过显式门控重新缩放来减轻,从而提高训练性能(平均增益 2 点)并增强量化鲁棒性(在 W4A4 量化下降低 1.2 点) ...
本笔记以技术但希望是教学的方式介绍了三种最常见的神经网络架构形式:前馈、卷积和循环。对于每个网络,其基本构建块都有详细说明。然后完整导出反向传播算法的前向传播和更新规则 ...