尽管在大量知识语料库上预训练的大型语言模型(LLM)表现出色,但提高其知识操作(有效回忆、推理和转移相关知识的能力)仍然具有挑战性。现有方法主要利用标记数据集上的监督微调(SFT)来增强 LLM 的知识操纵能力。然而,我们观察到 SFT 模型仍然表现出已知且不正确的现象,即它们明确拥有给定问题的相关知识,但无法利用它来获得正确答案。为了应对这一挑战,我们提出了KALE(知识感知学习)——一种利用知识图(KG)生成高质量原理并增强 LLM 知识操纵能力的培训后框架。具体来说,KALE 首先引入了知识诱导(KI)数据合成方法,该方法可以有效地从知识图谱中提取多跳推理路径,从而为问答对生成高质量的基本原理。然后,KALE 采用知识感知 (KA) 微调范式,通过最小化有理由和无理由的预测之间的 KL 差异,内化理由引导推理,从而增强知识操作。对六个不同 LLM 的八个流行基准进行的广泛实验证明了 KALE 的有效性,准确率提高了高达 11.72%,平均提高了 4.18% ...
大型推理模型(LRM)最近在复杂的推理任务中表现出了令人印象深刻的性能,通常通过自我反思行为,例如自我批评和回溯。然而,并非所有的反射都是有益的——许多反射都是肤浅的,对原始答案几乎没有任何改进,并且会产生计算开销。在本文中,我们识别并解决了 LRM 中的表面反射问题。我们首先提出自我批评微调(SCFT),这是一种仅使用自我生成的批评来增强模型的反思推理能力的训练框架。 SCFT 提示模型批评自己的输出,通过拒绝抽样过滤高质量的批评,并使用基于批评的目标微调模型。在此坚实的基础上,我们进一步引入了具有有效反思奖励的强化学习(RLERR)。 RLERR 利用 SCFT 初始化的高质量反射来构建奖励信号,引导模型通过强化学习内化自我校正过程。在两个具有挑战性的基准 AIME2024 和 AIME2025 上进行的实验表明,SCFT 和 RLERR 显着提高了推理准确性和反射质量,优于最先进的基准。所有数据和代码均可在此 https URL 中获取 ...
为长上下文 LLM 提供服务的成本很高,因为注意力计算随着上下文长度线性增长。动态稀疏注意力算法(DSA)通过仅关注关键 Token 的键值(KV)缓存来缓解这一问题。然而,对于 DSA,主要性能瓶颈从 HBM 带宽转移到 HBM 容量:未选择 Token 的 KV 缓存必须保留在 HBM 中以实现低延迟解码,从而限制并行批量大小并阻碍进一步的吞吐量增益。将这些未充分利用的 KV 缓存卸载到 DRAM 可以释放 HBM 容量,从而允许更大的并行批量大小。然而,实现这种分层 HBM-DRAM 存储带来了新的挑战,包括碎片化的 KV 缓存访问、HBM 缓存争用以及混合批处理的高 HBM 需求,这些挑战在之前的工作中仍未解决。本文提出了 SparseServe,这是一种 LLM 服务系统,它通过高效的分层 HBM-DRAM 管理来释放 DSA 的并行潜力。 SparseServe引入了三项关键创新来应对上述挑战:(1)碎片感知KV缓存传输,通过GPU直接加载(FlashH2D)和CPU辅助保存(FlashD2H)加速HBM-DRAM数据移动; (2) 工作集感知批量大小控制,根据实时工作集估计来调整批量大小,以最大限度地减少 HBM 缓存抖动; (3) 分层预填充,将预填充期间的 HBM 使用限制为单层,即使对于长提示也能实现高效执行。大量实验结果表明,与最先进的 LLM 服务系统相比,SparseServe 的平均首次 Token 时间 (TTFT) 延迟降低了 9.26 倍, Token 生成吞吐量提高了 3.14 倍 ...
我们通过将奖励建模作为政策歧视者提出奖励建模,提供了一种新颖的看法,该歧视者量化了两种政策之间产生奖励信号的差异,从而指导培训政策以所需的行为实现目标政策。基于这种概念上的见解,我们提出了一种名为策略判别学习(Polar)的可扩展培训方法,该方法训练奖励模型(RM)以辨别相同的政策并区分不同的政策。与依靠绝对偏好的传统奖励建模方法不同,Polar捕获了一个策略和任意目标策略之间的相对差异,这是一个可扩展的高级优化目标,适用于建模通用排名关系 ...
与丰富的人类视频演示相比,通用视觉-语言-动作模型目前受到机器人数据稀缺的阻碍。现有的潜在动作模型试图利用视频数据,但经常遭受视觉纠缠,捕捉噪音而不是操纵技能。为了解决这个问题,我们提出了对比潜在动作预训练(CLAP),这是一个将视频中的视觉潜在空间与机器人轨迹中的本体感受潜在空间对齐的框架。通过采用对比学习,CLAP 将视频转换映射到量化的、物理可执行的码本上。在此表示的基础上,我们引入了一种双公式 VLA 框架,该框架提供 CLAP-NTP(一种擅长指令跟踪和对象泛化的自回归模型)和 CLAP-RF(一种基于整流流的策略,专为高频、精确操作而设计)。此外,我们提出了一种知识匹配(KM)正则化策略,以减轻微调期间的灾难性遗忘。大量实验表明,CLAP 的性能显着优于强大的基线,能够将技能从人类视频有效转移到机器人执行。项目页面:此 https URL ...
排名是推荐系统的核心任务,旨在向用户提供有序的项目列表。通常,从标记数据集中学习排名函数以优化全局性能,从而为每个单独的项目生成排名分数。然而,它可能不是最优的,因为评分函数单独应用于每个项目,并且没有明确考虑项目之间的相互影响,以及用户偏好或意图的差异。因此,我们提出了推荐系统的个性化重排序模型。通过直接使用现有的排名特征向量,所提出的重新排名模型可以轻松地部署为任何排名算法之后的后续模块。它通过采用 Transformer 结构对列表中所有项目的信息进行有效编码,直接优化整个推荐列表。具体来说,Transformer 应用了一种自注意力机制,可以直接对整个列表中任意一对项目之间的全局关系进行建模。我们确认,通过引入预训练的嵌入来学习不同用户的个性化编码功能,可以进一步提高性能。离线基准和现实在线电子商务系统的实验结果证明了所提出的重新排名模型的显着改进 ...
专家混合 (MoE) 架构最近提高了大型语言模型 (LLM) 的可扩展性和适应性,以实现持续多模式学习。然而,有效扩展这些模型以适应顺序任务仍然具有挑战性。随着新任务的到来,朴素的模型扩展会导致参数快速增长,而修改共享路由组件通常会导致灾难性的遗忘,破坏之前学到的知识。为了解决这些问题,我们提出了 LLaVA-CMoE,这是一种针对 LLM 的持续学习框架,不需要重播先前任务的数据,并确保参数效率和强大的知识保留。我们的方法引入了探针引导的知识扩展机制,该机制使用探针专家来动态确定应在何时何地添加新专家,从而实现针对任务复杂性量身定制的自适应和最小参数扩展。此外,我们提出了一个概率任务定位器,它为每个任务分配一个专用的轻量级路由器。为了解决推理过程中任务标签未知的实际问题,我们利用基于 VAE 的重构策略,通过匹配输入分布来识别最合适的路由器,从而实现自动、准确的专家分配。这种设计减轻了路由冲突和灾难性遗忘,无需明确的任务标签即可实现稳健的持续学习。在 CoIN 基准上进行的广泛实验(涵盖八种不同的 VQA 任务)表明,LLaVA-CMoE 通过紧凑的模型大小提供了强大的持续学习性能,与之前的方法相比,显着减少了遗忘和参数开销。这些结果展示了我们在大型语言模型中进行参数高效持续学习的方法的有效性和可扩展性。我们的代码很快就会开源 ...
密集检索作为电子商务搜索引擎的核心组件,通过预先训练的嵌入模型将用户查询和项目映射到统一的语义空间中,以实现大规模实时语义检索。尽管 LLM 发展迅速,逐渐取代了传统的 BERT 架构进行嵌入,但它们的训练范式仍然遵循类似 BERT 的监督微调和硬负挖掘策略。这种方法依赖于复杂的离线硬负样本构建管道,这限制了模型迭代效率并阻碍了语义表示能力的进化潜力。此外,现有的多任务学习框架在同时优化语义相关性和非相关性目标时面临跷跷板效应。在本文中,我们提出了 Retrieval-GRPO,这是一种基于多目标强化学习的密集检索框架,旨在解决这些挑战。该方法通过在训练期间动态检索每个查询的 Top-K 候选产品来消除离线硬负样本构建,同时引入相关性 LLM 作为奖励模型来生成实时反馈。具体来说,检索模型通过强化学习动态优化嵌入表示,奖励信号结合LLM生成的相关性得分、产品质量得分和多路排他性指标,以实现多目标用户偏好对齐和实时纠错。该机制不仅消除了对硬负例的依赖,还通过协作多目标优化减轻了跷跷板效应,显着增强了模型对复杂长尾查询的语义泛化能力。大量的线下和线上实验验证了Retrieval-GRPO的有效性,该方法已部署在中国最大的电子商务平台上 ...
虽然大型多模态模型 (LMM) 取得了重大进展,但它们仍然主要以文本为中心,依赖语言作为其核心推理模式。因此,他们处理主要是视觉的推理任务的能力受到限制。最近的方法试图通过使用辅助图像、深度图或图像裁剪来监督中间视觉步骤来解决这个问题。然而,这些策略对“有用的”视觉抽象的外观施加了限制性先验,增加了沉重的注释成本,并且难以跨任务进行概括。为了解决这一关键限制,我们提出了一种与任务无关的机制,可以训练 LMM 在没有明确监督的情况下发现和使用视觉推理标记。这些 Token 在全球范围内参与,并以任务自适应的方式重新编码图像,使模型能够在没有手工监督的情况下提取相关的视觉信息。我们的方法优于直接微调,并在各种以视觉为中心的任务上实现了最先进的结果——包括那些难以指定中间抽象的任务——同时还推广到多任务指令调整 ...
强化学习(RL)为从经验中学习控制策略提供了一种有吸引力的形式。然而,强化学习的经典主动公式需要对每种行为进行漫长的主动探索过程,因此很难应用于机器人控制等现实环境中。相反,如果我们能够让强化学习算法有效地使用之前收集的数据来帮助在线学习过程,那么此类应用程序就可以变得更加实用:之前的数据将提供一个起点,减轻由于探索和样本复杂性而带来的挑战,而在线训练使智能体能够完善所需的技能。此类先前数据可以构成专家演示或说明潜在有用转变的次优先前数据。虽然许多先前的方法要么使用最佳演示来引导强化学习,要么使用次优数据来纯粹离线训练,但使用离线数据训练策略并实际上继续使用在线强化学习进一步改进它仍然异常困难。在本文中,我们分析了为什么这个问题如此具有挑战性,并提出了一种将样本高效动态规划与最大似然策略更新相结合的算法,提供了一个简单有效的框架,能够利用大量离线数据,然后快速执行强化学习策略的在线微调。我们展示了我们的方法,即优势加权演员评论家(AWAC),可以结合先前的演示数据和在线经验来快速学习技能。我们在模拟和现实世界的机器人领域展示了这些好处,包括用真正的多指手进行灵巧操纵、用机械臂打开抽屉以及旋转阀门。我们的结果表明,结合先前的数据可以将学习一系列机器人技能所需的时间减少到实际的时间范围内 ...