我们推出了 CSWin Transformer,这是一种高效且有效的基于 Transformer 的骨干网,用于通用视觉任务。 Transformer 设计中的一个具有挑战性的问题是全局自注意力的计算成本非常昂贵,而局部自注意力通常限制每个 Token 的交互领域。为了解决这个问题,我们开发了十字形窗口自注意力机制,用于并行计算形成十字形窗口的水平和垂直条纹的自注意力,每个条纹是通过将输入特征分割成相等宽度的条纹而获得的。我们对条带宽度的影响进行了数学分析,并改变 Transformer 网络不同层的条带宽度,从而在限制计算成本的同时实现了强大的建模能力。我们还引入了本地增强位置编码(LePE),它比现有的编码方案更好地处理本地位置信息。 LePE 天然支持任意输入分辨率,因此对于下游任务特别有效和友好。结合这些设计和分层结构,CSWin Transformer 在常见视觉任务上展示了具有竞争力的性能。具体来说,它在没有任何额外训练数据或标签的情况下在 ImageNet-1K 上实现了 85.4\% Top-1 准确率,在 COCO 检测任务上实现了 53.9 框 AP 和 46.4 掩模 AP,在 ADE20K 语义分割任务上实现了 52.2 mIOU,在相似的 FLOP 下分别超越了之前最先进的 Swin Transformer 主干网络 +1.2、+2.0、+1.4 和 +2.0设置。通过在更大的数据集 ImageNet-21K 上进一步预训练,我们在 ImageNet-1K 上实现了 87.5% 的 Top-1 准确率,并在 ADE20K 上实现了 55.7 mIoU 的高分割性能。代码和模型可从此 https URL 获取 ...
将基础模型适应训练数据有限的新领域具有挑战性且计算成本昂贵。虽然之前的工作已经证明了使用特定领域的示例作为上下文演示的有效性,但我们研究了将示例纯粹表示为文本是否是最高效、最有效和最稳定的方法。我们探索一种替代方案:使用示例顺序不变模型架构将示例表示为软提示。为此,我们引入了多头注意力检索增强生成(MHA-RAG),这是一个以注意力头数量作为简单超参数来控制不同任务的软提示生成的框架。在多个问答基准和模型规模中,MHA-RAG 比标准 RAG 实现了 20 点的性能提升,同时将推理成本降低了 10 倍 GFLOP,从而提供了更高的准确性和更高的效率,并且不受样本顺序的影响 ...
检索增强生成 (RAG) 通过将外部知识纳入输入提示来增强大型语言模型 (LLM) 的功能。然而,当检索到的上下文与 LLM 的参数知识相矛盾时,它通常无法解决不正确的外部上下文和正确的参数知识之间的冲突,称为上下文记忆冲突。为了解决这个问题,我们引入了冲突感知检索增强生成(CARE),由上下文评估器和基础 LLM 组成。上下文评估器从原始上下文标记中编码紧凑的内存标记嵌入。通过扎根/对抗性软提示,上下文评估器被训练来识别不可靠的上下文并捕获引导信号,将推理引向更可靠的知识源。大量实验表明,CARE 有效缓解了上下文记忆冲突,在 QA 和事实检查基准上实现了 5.0% 的平均性能增益,为值得信赖和自适应的 RAG 系统建立了一个有前途的方向 ...
主动学习(AL)旨在通过选择信息最丰富的样本进行标记来优化模型训练并降低注释成本。通常,AL 方法依赖于标记数据的经验分布来定义决策边界并执行不确定性或多样性估计,随后识别潜在的高质量样本。在少数场景中,经验分布通常与目标分布显着偏离,导致决策边界偏离其最佳位置。然而,现有方法忽视了未标记样本在增强经验分布以更好地与目标分布保持一致方面的作用,导致决策边界不理想,并且选择了不能充分代表目标分布的样本。为了解决这个问题,我们提出了一个混合 AL 框架,称为 \textbf{PromptAL} (样本感知动态软 \textbf{Prompts} for Few-Shot \textbf{A}ctive \textbf{L}earning)。该框架考虑了每个未标记数据点在将当前经验分布与目标分布对齐方面的贡献,从而优化决策边界。具体来说,PromptAL 首先利用未标记的数据构建样本感知的动态软提示,以调整模型的预测分布和决策边界。随后,基于调整后的决策边界,它将不确定性估计与全局和局部多样性相结合,以选择更准确地表示目标分布的高质量样本。六个域内数据集和三个域外数据集的实验结果表明,PromptAL 在九个基线上实现了卓越的性能。我们的代码库是公开访问的 ...
提示已成为适应大型语言模型(LLM)的主导范例。虽然离散(文本)提示因其可解释性而被广泛使用,但软(参数)提示最近在 API 中获得了关注。这是因为它们可以对来自更多训练样本的信息进行编码,同时最大限度地减少用户的 Token 使用,从而在上下文窗口中为特定于任务的输入留出更多空间。然而,软提示与它们所选择的 LLM 紧密耦合,限制了它们对其他 LLM 的推广。这种限制对于效率和隐私来说尤其成问题:(1)每个 LLM 的调整提示会产生很高的计算成本,特别是随着 LLM 规模的不断增长。此外,(2) 当 LLM 托管在外部时,软提示调整通常需要与 LLM 提供商共享私有数据。例如,NVIDIA NeMo API 就是这种情况。为了解决这些问题,我们提出了 POST(软提示转移隐私),这是一个框架,可以在小型模型上对软提示进行私人调整,然后将这些提示转移到更大的 LLM。 POST 使用知识蒸馏直接从大型 LLM 中派生出小型模型,以提高提示可迁移性,在本地调整软提示(可选地具有差异隐私保证),并使用小型公共数据集将其传输回较大的 LLM。我们的实验表明,POST 降低了计算成本,保护了隐私,并有效地传输了高实用性的软提示 ...
本文解决了现实环境中自主检查中的对象目标导航问题。物体目标导航对于在各种环境下进行有效检查至关重要,通常需要机器人在较大的搜索空间内识别目标物体。当前的物体检查方法达不到人类的效率,因为它们通常无法像人类一样引导先验知识和常识知识。在本文中,我们介绍了一个框架,使机器人能够使用来自环境的先前空间配置的语义知识和语义常识知识。我们提出了 SEEK(对象检查任务的语义推理),它将语义先验知识与机器人的观察相结合,以更有效地搜索和导航目标对象。 SEEK 维护两种表示形式:动态场景图 (DSG) 和关系语义网络 (RSN)。 RSN 是一个紧凑实用的模型,用于估计在 DSG 中跨空间元素找到目标对象的概率。我们提出了一种新颖的概率规划框架来使用关系语义知识来搜索对象。我们的模拟分析表明,SEEK 在对象目标检查任务的效率方面优于本研究中检验的经典规划和基于大型语言模型 (LLM) 的方法。我们在城市环境中的物理腿机器人上验证了我们的方法,展示了其在现实世界检查场景中的实用性和有效性 ...
大型语言模型 (LLM) 的即时调优 (PT) 可以通过显着减少可训练参数来提高各种传统 NLP 任务的性能。然而,我们的调查表明,PT 提供的改进有限,甚至可能降低 LLM 在复杂推理任务上的原始性能。这种现象表明,软提示可以对某些实例产生积极影响,同时对其他实例产生负面影响,特别是在推理的后期阶段。为了应对这些挑战,我们首先确定软提示中的信息积累。通过详细分析,我们证明这种现象往往伴随着模型深层的错误信息流模式,最终导致错误的推理结果。我们提出了一种称为动态提示腐蚀(DPC)的新方法,以更好地利用复杂推理任务中的软提示,该方法根据软提示对推理过程的影响动态调整软提示的影响。具体来说,DPC由两个阶段组成:动态触发和动态损坏。首先,动态触发测量软提示的影响,确定是有益还是有害。然后,动态腐蚀通过有选择地屏蔽干扰推理过程的关键标记来减轻软提示的负面影响。我们通过对各种 LLM 和推理任务(包括 GSM8K、MATH 和 AQuA)进行大量实验来验证所提出的方法。实验结果表明,DPC 可以持续增强 PT 的性能,与普通提示调整相比,准确率提高了 4%-8%,凸显了我们方法的有效性及其增强 LLM 复杂推理的潜力 ...
大型语言模型 (LLM) 的最新进展引起了研究人员的极大兴趣,他们希望利用这些模型来增强推荐系统 (RS)。现有的工作主要利用 LLM 生成知识丰富的文本,或利用 LLM 衍生的嵌入作为特征来改进 RS。虽然 LLM 中嵌入的广泛的世界知识通常有利于RS,但该应用程序只能将有限数量的用户和项目作为输入,而不能充分利用协同过滤信息。考虑到其在 RS 中的关键作用,利用 LLM 增强 RS 的一个关键挑战在于通过 LLM 提供更好的协同过滤信息。在本文中,从 LLM 的情境学习和思维链推理中汲取灵感,我们提出了大型语言模型增强型协同过滤(LLM-CF)框架,该框架将 LLM 的世界知识和推理能力提炼为协同过滤。我们还探索了一种简洁高效的指令调整方法,该方法提高了 LLM 的推荐能力,同时保留了其一般功能(例如,在 LLM 基准上不降低)。对三个真实世界数据集的综合实验表明,LLM-CF 显着增强了多个骨干推荐模型,并始终优于竞争基线,展示了其将 LLM 的世界知识和推理能力提炼为协作过滤的有效性 ...
具有工具使用能力的LLM代理的进步需要多样化和复杂的培训语料库。现有的数据生成方法主要遵循随机采样和浅层生成的范式,通常会产生简单且同质的轨迹,而无法捕获复杂的隐式逻辑依赖性。为了弥补这一差距,我们引入了 HardGen,这是一种自动代理管道,旨在生成具有可验证推理的硬工具使用训练样本。首先,HardGen 建立了一个基于代理故障案例的动态 API 图表,从中进行采样以合成硬跟踪。其次,这些跟踪作为条件先验来指导模块化、抽象高级工具的实例化,随后利用这些工具来制定硬查询。最后,先进的工具和硬查询能够生成可验证的复杂思想链(CoT),并通过闭环评估反馈引导流程的持续改进。广泛的评估表明,与几个领先的开源和闭源竞争对手(例如 GPT-5.2、Gemini-3-Pro 和 Claude-Opus-4.5)相比,使用我们精选的数据集训练的 4B 参数模型具有卓越的性能。我们的代码、模型和数据集将开源,以促进未来的研究 ...
检索增强生成(RAG)通过集成外部知识,显着增强了大型语言模型(LLM)在下游任务中的性能。为了方便研究人员部署 RAG 系统,引入了各种 RAG 工具包。然而,许多现有的RAG工具包缺乏针对特定应用场景的知识适配支持。为了解决这一限制,我们提出了 UltraRAG,这是一个 RAG 工具包,可以在整个工作流程(从数据构建和培训到评估)中自动进行知识适应,同时确保易用性。 UltraRAG 具有用户友好的 WebUI,可简化 RAG 流程,使用户无需编码专业知识即可构建和优化系统。它支持多模式输入并提供用于管理知识库的综合工具。凭借其高度模块化的架构,UltraRAG 提供了端到端的开发解决方案,实现了跨不同用户场景的无缝知识适应。 UltraRAG 的代码、演示视频和可安装包可通过此 https URL 公开获取 ...