引导柔性机器人内窥镜(FRE)穿过胃肠道对于手术诊断和治疗至关重要。然而,动态胃中的导航尤其具有挑战性,因为 FRE 必须学会有效地利用与可变形胃壁的接触来到达目标位置。为了解决这个问题,我们为 FRE 引入了基于深度强化学习 (DRL) 的接触辅助导航 (CAN) 策略,利用接触力反馈来增强运动稳定性和导航精度。训练环境是使用基于物理的有限元法(FEM)模拟可变形胃来建立的。经过近端策略优化 (PPO) 算法的训练,我们的方法实现了较高的导航成功率(FRE 的末端执行器和目标之间的误差在 3 毫米以内),并且显着优于基准策略。在静态和动态胃环境中,CAN智能体均实现了100%的成功率,平均误差为1.6毫米,并且在具有较强外部干扰的挑战未见过的场景中保持了85%的成功率。这些结果验证了基于 DRL 的 CAN 策略比以前的方法显着增强了 FRE 导航性能 ...

0 0 0 0 2026/02/03 arXiv:2509.00319v1 GAX

我们研究允许大型语言模型(LLM)通过推理时间缩放的角度处理任意长的提示。我们提出了递归语言模型(RLM),这是一种通用推理策略,它将长提示视为外部环境的一部分,并允许 LLM 以编程方式检查、分解并在提示片段上递归调用自身。我们发现,RLM 成功地处理了超出模型上下文窗口两个数量级的输入,即使对于较短的提示,在四个不同的长上下文任务中,其质量也显着优于基础 LLM 和常见的长上下文支架,同时每个查询的成本相当(或更便宜) ...

0 0 0 0 2026/02/03 arXiv:2512.24601v2 十门山几

我们提出了一种简单的方法来有效地适应预训练语言模型的内存。我们的方法使用迭代算法将每个预训练矩阵分解为高精度低秩分量和内存高效的量化分量。在微调期间,量化分量保持固定,仅更新低秩分量。我们提出了量化组件的整数线性规划公式,它能够在给定总体目标内存预算的情况下动态配置每个矩阵的量化参数(例如位宽、块大小)。我们进一步探索了该算法的数据感知版本,该版本使用 Fisher 信息矩阵的近似值在矩阵分解期间对重建目标进行加权。微调 RoBERTa 和 LLaMA-2(7B 和 70B)的实验表明,我们的低秩加量化矩阵分解方法 (LQ-LoRA) 优于强大的 QLoRA 和 GPTQ-LoRA 基线,并且能够实现激进的量化到低于 3 位,而性能仅略有下降。当在语言建模校准数据集上进行微调时,LQ-LoRA 还可以用于模型压缩;在此设置中,我们的 2.75 位 LLaMA-2-70B 模型(包括低阶组件时平均为 2.85 位,需要 27GB GPU 内存)与 16 位基准相比表现良好 ...

0 0 0 0 2026/02/03 arXiv:2311.12023v4 Daenerays

基于 Transformer 的大型语言模型的快速扩展极大地增加了对高性能 GPU 的需求。因此,对快速、准确且可广泛推广的 GPU 性能模型的需求不断增长,以支持下一代硬件选择和系统级探索。然而,当前的数据驱动方法是有限的,跨硬件的泛化能力较差,并且对现代推理堆栈中常见的复杂生产级内核的建模不充分。为了解决这些问题,我们推出了 SyncPerf,一个统一的 GPU 建模框架。该方法首先采用分析模型来量化给定内核对 GPU 异构指令管道的需求。然后,这些分析特征被输入到机器学习 (ML) 模型中,以捕获复杂的跨管道交互和资源依赖性,从而实现高保真性能预测。我们在两个广泛使用的服务系统上对四代主要架构的 11 种 GPU 类型进行了评估,结果表明 SyncPerf 具有高保真度和强大的通用性。它实现了准确的预测,内核级平均误差仅为 6.1%,端到端推理平均误差为 8.5%,分别将最先进方法的误差降低了 6.7 倍和 4.4 倍。我们还通过利用 SynPerf 的性能上限来诊断实施缺陷并指导生产融合 MoE Triton 内核的优化,从而展示 SynPerf 的“超越模拟”的价值,实现高达 1.7 倍的加速 ...

0 0 0 0 2026/02/03 arXiv:2601.14910v1 tongxianhui

检索增强生成(RAG)通过从外部来源检索相关信息(特别是基于文本的数据)来提高 LLM 在各种任务中的表现。对于结构化数据,例如知识图谱,GraphRAG已被广泛用于检索相关信息。然而,最近的研究表明,将文本中的隐性知识构造成图形可以使某些任务受益,将 GraphRAG 的应用从图形数据扩展到一般的基于文本的数据。尽管它们的扩展很成功,但 GraphRAG 在文本数据上的大多数应用都是针对特定任务和数据集而设计的,缺乏在广泛使用的基于文本的基准上对 RAG 和 GraphRAG 进行系统的评估和比较。在本文中,我们在完善的基准任务(例如问答和基于查询的摘要)上系统地评估了 RAG 和 GraphRAG。我们的结果凸显了 RAG 和 GraphRAG 在不同任务和评估角度上的独特优势。受这些观察的启发,我们研究了整合他们的优势以改进下游任务的策略。此外,我们还深入讨论了当前 GraphRAG 方法的缺点,并概述了未来研究的方向 ...

0 0 0 0 2026/02/03 arXiv:2502.11371v2 hpsk

具有可验证奖励的强化学习 (RLVR) 已成为解锁大型语言模型 (LLM) 中复杂推理的基石。然而,扩大强化学习受到现有可验证数据有限的瓶颈,随着长时间的训练,改进会逐渐饱和。为了克服这个问题,我们提出了 Golden Goose,这是一种简单的技巧,通过构建填空任务的多项选择问答版本,从无法验证的互联网文本中合成无限的 RLVR 任务。给定源文本,我们提示 LLM 识别并掩盖关键推理步骤,然后生成一组多样化的、合理的干扰因素。这使我们能够利用通常被排除在先前 RLVR 数据构建(例如科学教科书)之外的推理丰富且无法验证的语料库来合成 GooseReason-0.7M,这是一个大规模 RLVR 数据集,包含超过 70 万个任务,涵盖数学、编程和一般科学领域。根据经验,GooseReason 有效地恢复了现有 RLVR 数据饱和的模型,在连续 RL 下产生强劲、持续的收益,并在 15 个不同的基准测试中为 1.5B 和 4B-Instruct 模型取得了新的最先进的结果。最后,我们在现实环境中部署 Golden Goose,从网络安全领域的原始 FineWeb 抓取中合成 RLVR 任务,其中不存在先前的 RLVR 数据。使用生成的数据训练 Qwen3-4B-Instruct GooseReason-Cyber​​ 在网络安全领域树立了新的最先进水平,超越了 7B 领域专用模型,具有广泛的特定领域预训练和后训练。这凸显了通过利用丰富、推理丰富、无法验证的互联网文本来自动扩展 RLVR 数据的潜力 ...

0 0 0 0 2026/02/03 arXiv:2601.22975v1 manlinghun

在人形机器人上实现强大的、类人的全身控制以实现敏捷、接触丰富的行为仍然是一个核心挑战,需要大量的技能工程和脆弱的控制器调整过程。我们引入了 ZEST(零镜头体现技能转移),这是一种简化的动作模仿框架,通过来自不同来源(高保真动作捕捉、嘈杂的单目视频和非物理约束动画)的强化学习来训练策略,并将其部署到硬件零镜头。 ZEST 概括了行为和平台,同时避免了接触标签、参考或观察窗口、状态估计器和广泛的奖励塑造。其训练流程结合了自适应采样(重点训练困难的运动片段)和使用基于模型的辅助扳手的自动课程,共同实现动态、长范围的操作。我们进一步提供了一种从闭链执行器的近似分析电枢值中选择关节级增益的程序,以及执行器的精细模型。 ZEST 完全在具有适度域随机化的模拟中进行训练,表现出显着的通用性。在波士顿动力公司的 Atlas 人形机器人上,ZEST 通过动作捕捉学习动态、多接触技能(例如,军队爬行、霹雳舞)。它将富有表现力的舞蹈和场景交互技能(例如爬箱)直接从视频传输到 Atlas 和 Unitree G1。此外,它还扩展到 Spot 四足动物的形态,通过动画实现连续后空翻等杂技。总之,这些结果证明了跨异构数据源和实施例的稳健的零样本部署,将 ZEST 建立为生物运动与其机器人对应物之间的可扩展接口 ...

0 0 0 0 2026/02/03 arXiv:2602.00401v1 computer1

文本嵌入已成为深度学习时代自然语言处理 (NLP) 的基础技术,推动了各种下游任务的进步。虽然许多自然语言理解挑战现在可以使用生成范式进行建模,并利用大型语言模型 (LLM) 强大的生成和理解能力,但许多实际应用(例如语义匹配、聚类和信息检索)仍然依赖文本嵌入来提高效率和有效性。因此,将 LLM 与文本嵌入相结合已成为近年来的主要研究热点。在本次调查中,我们将 LLM 和文本嵌入之间的相互作用分为三个总体主题:(1) LLM 增强文本嵌入,利用 LLM 增强传统嵌入方法; (2) LLM 作为文本嵌入者,调整其与生俱来的能力以实现高质量嵌入; (3) 通过 LLM 理解文本嵌入,利用 LLM 来分析和解释嵌入。通过根据交互模式而不是特定的下游应用来组织最近的工作,我们对 LLM 时代各个研究和应用领域的贡献提供了新颖而系统的概述。此外,我们强调了预训练语言模型(PLM)在预 LLM 时代持续存在的未解决的挑战,并探讨了 LLM 带来的新障碍。在此分析的基础上,我们概述了文本嵌入演变的前瞻性方向,解决了快速发展的 NLP 领域的理论和实践机会 ...

0 0 0 0 2026/02/03 arXiv:2412.09165v4 mamile

大型语言模型 (LLM) 已成为推动人工智能领域发展的关键,但其巨大的规模给微调和部署带来了重大挑战。当前的训练后修剪方法虽然减小了 LLM 的大小,但通常无法保持其原始性能。为了解决这些挑战,本文引入了 SPP,一种稀疏保留参数高效的微调方法。与现有的难以保持性能的训练后剪枝方法不同,SPP 建议采用轻量级可学习的列和行矩阵来优化稀疏 LLM 权重,保持剪枝后的预训练模型的结构和稀疏性完整。通过逐元素相乘和残差相加,SPP 确保了训练和权值合并过程中模型稀疏模式和比率的一致性。我们通过最近的训练后剪枝方法将 SPP 应用于 LLaMA 和 LLaMA-2 模型系列,证明了 SPP 的有效性。我们的结果表明,SPP 显着增强了具有不同稀疏性模式(即非结构化和 N:M 稀疏性)的模型的性能,特别是对于那些具有高稀疏性比率(例如 75%)的模型,使其成为稀疏 LLM 高效微调的有前途的解决方案。代码将在此 https URL 中提供 ...

0 0 0 0 2026/02/03 arXiv:2405.16057v1 Daenerays

情境学习作为自然语言处理的一种新范式,只需少量提示和示例即可使模型快速适应各种任务。但在计算机视觉中,上下文学习的困难在于任务的输出表示差异很大,因此尚不清楚如何定义视觉模型可以理解并迁移到域外任务的通用任务提示。在这项工作中,我们提出了Painter,一个通才模型,它通过以“图像”为中心的解决方案来解决这些障碍,即将核心视觉任务的输出重新定义为图像,并将任务提示指定为图像。有了这个想法,我们的训练过程就变得非常简单,只需对输入和输出图像对的拼接执行标准的蒙版图像建模即可。这使得模型能够执行以可见图像块为条件的任务。因此,在推理过程中,我们可以采用来自同一任务的一对输入和输出图像作为输入条件,来指示要执行哪个任务。与成熟的特定任务模型相比,我们的多面手 Painter 在没有花哨的情况下,可以在从高级视觉理解到低级图像处理的七种代表性视觉任务上实现具有竞争力的性能。此外,Painter 在几个具有挑战性的任务上显着优于最新的通用模型 ...

0 0 0 0 2026/02/03 arXiv:2212.02499v2 S.X.K