对比学习(CL)最近在推荐领域推动了一系列富有成效的研究,因为它从原始数据中提取自我监督信号的能力与推荐系统解决数据稀疏问题的需求非常吻合。基于 CL 的推荐模型的典型流程是首先使用结构扰动来增强用户-项目二分图,然后最大化不同图增强之间的节点表示一致性。尽管这种范例被证明是有效的,但性能提升的背后是什么仍然是一个谜。在本文中,我们首先通过实验揭示,在基于 CL 的推荐模型中,CL 通过学习更均匀分布的用户/项目表示来运行,这可以隐式减轻流行度偏差。同时,我们发现,被认为必要的图增强只是起到了微不足道的作用。基于这一发现,我们提出了一种简单的 CL 方法,该方法放弃图增强,而是向嵌入空间添加均匀噪声以创建对比视图。对三个基准数据集的综合实验研究表明,虽然看起来非常简单,但所提出的方法可以平滑地调整学习表示的均匀性,并且在推荐准确性和训练效率方面比基于图增强的方法具有明显的优势。代码在此 https URL 发布 ...
复杂数学推理的能力是人工智能的关键基准。虽然应用于LLM的加强学习(RL)表现出希望,但由于缺乏足够挑战的大规模培训数据,进步受到了极大的阻碍,具有适合RL的可验证答案格式,并且没有评估基准的污染。为了解决这些限制,我们引入了DeepMath-103K,这是一个新的大规模数据集,其中包括大约103K数学问题,专门设计用于通过RL训练先进的推理模型 ...
传统观点认为,图像生成的自回归模型通常伴随着矢量量化标记。我们观察到,虽然离散值空间可以促进表示分类分布,但它并不是自回归建模所必需的。在这项工作中,我们建议使用扩散过程对每个标记的概率分布进行建模,这使我们能够在连续值空间中应用自回归模型。我们不使用分类交叉熵损失,而是定义扩散损失函数来对每个标记的概率进行建模。这种方法消除了对离散值分词器的需要。我们评估了其在各种情况下的有效性,包括标准自回归模型和广义屏蔽自回归 (MAR) 变体。通过消除矢量量化,我们的图像生成器获得了强大的结果,同时享受序列建模的速度优势。我们希望这项工作能够促进自回归生成在其他连续值领域和应用中的使用。代码可在以下位置获得:此 https URL ...
“预训练然后微调”范式在大型语言模型的部署中普遍采用。低秩适应 (LoRA) 是一种参数高效的微调方法,通常用于使基本模型适应多种任务,从而产生从一个基本模型派生的大量 LoRA 适配器。我们观察到,这种范例为服务期间的批量推理提供了重要的机会。为了利用这些机会,我们推出了 S-LoRA,这是一个专为许多 LoRA 适配器的可扩展服务而设计的系统。 S-LoRA 将所有适配器存储在主内存中,并将当前运行的查询使用的适配器获取到 GPU 内存。为了有效利用GPU内存并减少碎片,S-LoRA提出了统一分页(Unified Paging)。统一分页使用统一的内存池来管理具有不同等级的动态适配器权重和具有不同序列长度的 KV 缓存张量。此外,S-LoRA 采用新颖的张量并行策略和高度优化的定制 CUDA 内核,用于 LoRA 计算的异构批处理。总的来说,这些功能使 S-LoRA 能够在单个 GPU 上或跨多个 GPU 以较小的开销为数千个 LoRA 适配器提供服务。与 HuggingFace PEFT 和 vLLM(对 LoRA 服务的简单支持)等最先进的库相比,S-LoRA 可以将吞吐量提高多达 4 倍,并将服务适配器的数量增加几个数量级。因此,S-LoRA 能够为许多特定于任务的微调模型提供可扩展的服务,并提供大规模定制微调服务的潜力。该代码可在此 https URL 获取 ...
在本文中,我们研究了可推广的合成图像检测问题,旨在从不同的生成方法(例如 GAN 和扩散模型)中检测伪造图像。前沿的解决方案开始探索预训练模型的好处,并且主要遵循仅训练附加分类器的固定范例,例如将冻结的 CLIP-ViT 与 UniFD 中的可学习线性层相结合。然而,我们的分析表明,这种固定范式很容易产生对伪造表示学习不足的检测器。我们将关键挑战归因于缺乏伪造适应,并提出了一种新颖的伪造感知自适应 Transformer 方法,即 FatFormer。基于 CLIP 的预训练视觉语言空间,FatFormer 引入了两个核心设计来适应构建广义伪造表示。首先,出于图像和频率分析对于合成图像检测至关重要的事实,我们开发了一种伪造感知适配器来适应图像特征,以识别和集成图像和频率域内的局部伪造痕迹。其次,我们发现考虑到适应图像特征和文本提示嵌入之间的对比目标(之前被忽视的一个方面)会带来不平凡的泛化改进。因此,我们引入了语言引导的对齐来监督 FatFormer 中图像和文本提示的伪造适应。实验表明,通过耦合这两种设计,我们在 4 类 ProGAN 数据上调整的方法获得了卓越的检测性能,对未见过的 GAN 实现了平均 98% 的准确率,并且令人惊讶地以 95% 的准确率推广到了未见的扩散模型 ...
视觉和语言导航(VLN)作为嵌入式人工智能的一个关键研究问题,需要一个嵌入式智能体按照自然语言指令在复杂的 3D 环境中进行导航。最近的研究强调了大型语言模型 (LLM) 在 VLN 中通过提高导航推理准确性和可解释性的潜力。然而,它们以离线方式的主要使用通常会受到 VLN 任务和 LLM 训练语料库之间巨大领域差距的影响。本文介绍了一种称为导航思想链(NavCoT)的新颖策略,在该策略中,我们实现了参数高效的域内训练,以实现自我引导的导航决策,从而以具有成本效益的方式显着缩小域差距。具体来说,在每个时间步长, LLM 都会通过以下方式预测导航思想链:1)充当世界模型,根据指令想象下一个观察结果,2)选择最符合想象的候选观察结果,3)根据先前步骤的推理确定行动。通过构建正式的培训标签, LLM 可以学习生成所需的合理的思想链输出,以改进行动决策。各种训练设置和流行的 VLN 基准(例如 Room-to-Room (R2R)、Room-across-Room (RxR)、Room-for-Room (R4R))的实验结果表明 NavCoT 相对于直接动作预测变体具有显着的优越性。通过简单的参数高效微调,我们的 NavCoT 优于最近基于 GPT4 的方法,在 R2R 数据集上相对改进约 7%。我们相信 NavCoT 将有助于解锁更多任务自适应和可扩展的基于 LLM 的实体代理,这有助于开发现实世界的机器人应用程序。代码可从此 https URL 获取 ...
多模态大语言模型(MLLM)通过集成视觉和文本输入展示了卓越的功能,但模态对齐仍然是最具挑战性的方面之一。当前的 MLLM 通常依赖于简单的适配器架构和预训练方法,在图像级监督的指导下,将视觉编码器与大型语言模型 (LLM) 连接起来。我们发现这种范式通常会导致模态之间的对齐不理想,从而严重限制了 LLM 正确解释和推理视觉特征的能力,特别是对于较小的语言模型。这种限制会降低整体性能,特别是对于较小的语言模型,其容量限制更加明显并且适应能力有限。为了解决这个基本限制,我们提出了监督嵌入对齐(SEA),这是一种 Token 级监督对齐方法,可以在预训练期间实现更精确的视觉文本对齐。 SEA 引入了最小的计算开销,同时保留了语言功能并显着提高了跨模式理解。我们的全面分析揭示了适配器在多模式集成中的作用的重要见解,并且广泛的实验表明,SEA 持续提高了各种模型大小的性能,其中较小的模型受益最多(Gemma-2B 的平均性能增益为 7.61%)。这项工作为未来多式联运系统开发更有效的对齐策略奠定了基础 ...
连续环境中的视觉和语言导航 (VLN-CE) 的最新进展利用多模态大语言模型 (MLLM) 来实现零样本导航。然而,现有方法通常依赖于全景观测和涉及航路点预测器的两级管道,这会引入显着的延迟并限制现实世界的适用性。在这项工作中,我们提出了 Fast-SmartWay,一种端到端零样本 VLN-CE 框架,消除了对全景视图和航点预测器的需求。我们的方法仅使用三个正面 RGB-D 图像与自然语言指令相结合,使 MLLM 能够直接预测动作。为了增强决策的鲁棒性,我们引入了一个不确定性感知推理模块,该模块集成了(i)用于避免局部最优的消歧模块,以及(ii)用于全局一致规划的未来-过去双向推理机制。在模拟和真实机器人环境中进行的实验表明,与全景视图基线相比,我们的方法显着减少了每步延迟,同时实现了有竞争力或卓越的性能。这些结果证明了 Fast-SmartWay 对于现实世界零样本体现导航的实用性和有效性 ...
视觉语言模型(VLM)已广泛应用于地面视觉语言导航(VLN)。然而,室外空中环境的巨大复杂性加剧了数据采集的挑战,并对无人机 (UAV) 提出了长视距轨迹规划要求,从而给空中 VLN 带来了新的复杂性。为了应对这些挑战,我们提出了一种数据高效的开放世界航空视觉语言导航(即OpenVLN)框架,该框架可以在有限的数据约束下执行语言引导飞行,并增强复杂航空环境中的长视距轨迹规划能力。具体来说,我们重新配置了一个强化学习框架来优化无人机导航任务的VLM,它可以在有限的训练数据下使用基于规则的策略来有效地微调VLM。同时,我们引入了用于轨迹合成的长视野规划器,该规划器通过基于价值的奖励动态生成精确的无人机动作。最后,我们在 TravelUAV 基准上进行了足够的导航实验,并在不同的奖励设置中扩展了数据集。与基线方法相比,我们的方法在成功率、Oracle 成功率和按路径长度加权的成功率方面表现出一致的性能提升高达 4.34%、6.19% 和 4.07%,验证了其在复杂空中环境中长视距无人机导航的部署功效 ...
随着具身智能成为人工智能研究的核心前沿,模拟平台必须超越低级物理交互,以捕捉复杂的、以人为中心的社会行为。我们介绍 FreeAskWorld,这是一个交互式模拟框架,它集成了大型语言模型 (LLM),用于高级行为规划和基于语义的交互,并以意图和社会认知理论为基础。我们的框架支持可扩展、真实的人类代理模拟,并包括为不同具体体现而定制的模块化数据生成管道,验证框架,我们将经典的视觉和语言导航(VLN)任务扩展为交互丰富的方向查询设置,其中代理可以主动寻找和解释导航指导。我们提出并公开发布 FreeAskWorld,这是一个大规模基准数据集,包含重建环境、六种不同的任务类型、16 个核心对象类别、63,429 个带注释的样本帧以及超过 17 小时的交互数据,以支持具体人工智能系统的训练和评估。我们在开环和闭环设置下对 VLN 模型和人类参与者进行基准测试。实验结果表明,在 FreeAskWorld 上微调的模型优于原始模型,从而增强了语义理解和交互能力。这些发现强调了基于社会的模拟框架在推动具体人工智能系统走向复杂的高层规划和更自然的人机交互方面的有效性。重要的是,我们的工作强调交互本身可以作为一种附加的信息方式 ...