大型语言模型 (LLM) 编码广泛的医学知识,但很难将其可靠地应用于纵向患者轨迹,其中不断变化的临床状态、不规则的时间安排和异质事件会随着时间的推移而降低性能。现有的适应策略依赖于微调或基于检索的增强,这会带来计算开销、隐私限制或长上下文下的不稳定。我们引入了 TRACE(通过 Agentic Context Evolution 进行时间推理),这是一个框架,通过显式构建和维护上下文而不是扩展上下文窗口或更新参数,可以使用冻结的 LLM 进行时间临床推理。 TRACE 在双内存架构上运行,该架构由编码机构临床规则的静态全局协议和跟踪患者特定状态的动态个人协议组成。四个代理组件(路由器、推理器、审计器和管家)在此结构化内存上进行协调,以支持时间推理和状态演化。该框架通过结构化状态压缩维持有界推理成本,并有选择地审核安全关键的临床决策。 TRACE 对 MIMIC-IV 的纵向临床事件流进行评估,在长上下文和检索增强基线上显着提高了下一个事件预测的准确性、协议遵守性和临床安全性,同时产生可解释和可审计的推理轨迹 ...

0 0 0 0 2026/02/25 arXiv:2602.12833v1 assassinkkkk

医学图像和视频分割是精准医学的一项关键任务,在开发 2D 图像的任务或模态特定和通用模型方面已经取得了长足的进步。然而,通过全面的用户研究来构建 3D 图像和视频的通用模型的研究还很有限。在这里,我们介绍 MedSAM2,这是一种用于 3D 图像和视频分割的快速分割基础模型。该模型是通过在大型医疗数据集上对 Segment Anything Model 2 进行微调而开发的,该数据集包含超过 455,000 个 3D 图像掩模对和 76,000 个帧,在广泛的器官、病变和成像模式方面优于以前的模型。此外,我们还实施了人机交互流程,以促进大规模数据集的创建,据我们所知,这是迄今为止最广泛的用户研究,涉及注释 5,000 个 CT 病灶、3,984 个肝脏 MRI 病灶和 251,550 个超声心动图视频帧,证明 MedSAM2 可以减少 85% 以上的手动成本。 MedSAM2 还集成到广泛使用的平台中,具有用于本地和云部署的用户友好界面,使其成为支持研究和医疗环境中高效、可扩展和高质量细分的实用工具 ...

0 0 0 0 2026/02/25 arXiv:2504.03600v1 begin_huang

虽然扩散模型在视频生成领域取得了巨大成功,但这种进步伴随着计算负担的迅速增加。在现有的加速方法中,特征缓存因其免训练的特性和可观的加速性能而受到欢迎,但随着进一步压缩,它不可避免地面临语义和细节的下降。另一种广泛采用的方法是训练感知的逐步蒸馏,尽管在图像生成方面取得了成功,但在视频生成方面也面临着几个步骤的严重退化。此外,当简单地将免训练特征缓存应用于逐步蒸馏模型时,由于采样步骤稀疏,质量损失变得更加严重。本文首次新颖地引入了一种与蒸馏兼容的可学习特征缓存机制。我们采用轻量级可学习神经预测器来代替传统的免训练启发式扩散模型,从而能够更准确地捕获高维特征演化过程。此外,我们探索了大规模视频模型上高度压缩蒸馏的挑战,并提出了一种保守的受限平均流方法来实现更稳定和无损的蒸馏。通过采取这些举措,我们将加速边界进一步推至 11.8 美元\次$,同时保持发电质量。大量的实验证明了我们方法的有效性。该代码位于补充材料中,并将公开发布 ...

0 0 0 0 2026/02/25 arXiv:2602.05449v2 allen1000

通用类人运动跟踪器最近通过扩展数据和训练实现了强大的模拟指标,但由于接口和动力学引起的错误,在持续远程操作期间,硬件通常仍然脆弱。我们推出 MOSAIC,这是一种开源全栈系统,用于跨多个界面的人形运动跟踪和全身远程操作。 MOSAIC 首先通过 RL 在多源运动库上学习面向远程操作的通用运动跟踪器,具有自适应重采样和奖励,强调世界框架运动一致性,这对于移动远程操作至关重要。为了在不牺牲通用性的情况下弥合模拟与真实接口之间的差距,MOSAIC 然后执行快速残差适应:使用最少的特定于接口的数据来训练特定于接口的策略,然后通过附加残差模块将其提炼到通用跟踪器中,从而优于朴素的微调或持续学习。我们通过系统消融、分布外基准测试和真实机器人实验来验证 MOSAIC,这些实验展示了在真实延迟和噪声下强大的离线运动重放和在线长视距远程操作 ...

0 0 0 0 2026/02/25 arXiv:2602.08594v2 yukun

我们研究了一种基于技能的人形框重新排列框架,该框架通过在任务级别对可重用技能进行排序来实现长期执行。在我们的架构中,所有技能都通过共享的、与任务无关的全身控制器 (WBC) 执行,为技能组合提供一致的闭环接口,这与每个技能使用单独的低级控制器的非共享设计形成鲜明对比。我们发现,天真地重复使用相同的预训练 WBC 会降低长期的稳健性,因为新技能及其组合会导致状态和命令分布发生变化。我们通过一个简单的数据聚合程序来解决这个问题,该程序通过域随机化下的闭环技能执行来增强共享 WBC 训练。为了评估该方法,我们引入了 Humanoid Hanoi,这是一种长视野河内塔框重排基准,并报告了模拟和 Digit V3 人形机器人的结果,展示了在扩展视野上的完全自主重排,并量化了共享 WBC 方法相对于非共享基线的好处。项目页面:此 https URL ...

0 0 0 0 2026/02/25 arXiv:2602.13850v3 yukun

虽然人形运动的最新进展已经实现了在不同地形上的稳定行走,但捕捉高度动态的人体运动的敏捷性和适应性仍然是一个开放的挑战。特别是复杂环境下的敏捷跑酷,不仅需要低级的鲁棒性,还需要类人的动作表现力、长视界技能构成以及感知驱动的决策。在本文中,我们提出了感知人形跑酷(PHP),这是一个模块化框架,使人形机器人能够在具有挑战性的障碍路线上自主执行基于视觉的长视野跑酷。我们的方法首先利用运动匹配,将其表述为特征空间中的最近邻搜索,将重新定位的原子人类技能组合成长视野运动轨迹。该框架能够实现复杂技能链的灵活组合和平滑过渡,同时保留动态人体动作的优雅和流畅性。接下来,我们结合使用 DAgger 和 RL,为这些组合动作训练运动跟踪强化学习 (RL) 专家策略,并将它们提炼成单一的基于深度的多技能学生策略。至关重要的是,感知和技能组合的结合可以实现自主的、情境感知的决策:仅使用机载深度传感和离散的 2D 速度命令,机器人就可以选择并执行是否跨过、爬上、跳跃或滚下不同几何形状和高度的障碍物。我们在 Unitree G1 人形机器人上进行了广泛的真实世界实验来验证我们的框架,展示了高度动态的跑酷技能,例如攀爬高达 1.25m(机器人高度的 96%)的高障碍,以及对实时障碍物扰动进行闭环适应的长视野多障碍物穿越 ...

0 0 0 0 2026/02/25 arXiv:2602.15827v1 yukun

生成推荐 (GR) 已成为一种变革范式,它将传统的级联排序系统重新表述为序列到项目的生成任务,并通过使用离散语义 ID (SID) 来促进。然而,当前的 SID 并不理想,因为索引目标(第 1 阶段)与实际推荐目标(第 2 阶段)不一致。由于这些标识符保持静态(第 2 阶段),因此骨干模型缺乏使它们适应用户交互不断变化的复杂性的灵活性。此外,将分层 SID 扁平化为 Token 序列的流行策略会导致序列长度膨胀,从而导致过高的计算开销和推理延迟。为了应对这些挑战,我们提出了 IntRR,这是一种集成了目标一致的 SID 重新分配和结构长度缩减的新颖框架。通过利用特定于项目的唯一 ID (UID) 作为协作锚点,此方法可以跨分层码本层动态地重新分配语义权重。同时,IntRR 递归地处理 SID 层次结构,从而无需展平序列。这确保了每件商品的固定成本为一个 Token 。对基准数据集的大量实验表明,IntRR 比代表性生成基线有了显着的改进,在推荐准确性和效率方面实现了卓越的性能 ...

0 0 0 0 2026/02/25 arXiv:2602.20704v1 090806wzx

在这项工作中,我们系统地回顾了语言模型代码处理的最新进展,涵盖 50 多个模型、30 多个评估任务和 500 多个相关工作。我们将代码处理模型分解为以 GPT 系列为代表的通用语言模型和专门针对代码进行预训练的专用模型,通常具有定制的目标。我们讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和 RNN 到预训练 Transformer 和 LLM 的历史转变,这与 NLP 所采取的过程完全相同。我们还讨论了特定于代码的功能,例如 AST、CFG 和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在的未来方向。我们在 github 存储库(此 https URL)上保持调查开放和更新 ...

0 0 0 0 2026/02/25 arXiv:2311.07989v7 九九

强化学习(RL)提高了大型语言模型(LLM)的推理能力,但最先进的方法仍然无法解决许多训练问题。在难题上,同策略强化学习很少探索哪怕是一次正确的部署,产生零奖励,也没有推动改进的学习信号。我们发现,解决经典 RL 探索问题的自然解决方案(例如熵奖励、更宽松的重要性比裁剪或 pass@k 目标的直接优化)并不能解决此问题,并且常常会在不提高可解性的情况下破坏优化的稳定性。一个自然的选择是利用更简单的问题的转移。然而,我们表明,由于射线干扰,在 RL 训练期间混合简单和困难的问题会适得其反,其中优化侧重于已经可以解决的问题,从而主动抑制更困难的问题的进展。为了应对这一挑战,我们引入了特权在策略探索(POPE),这种方法利用人类或其他预言机解决方案作为特权信息来指导对难题的探索,这与使用预言机解决方案作为训练目标的方法(例如,离策略强化学习方法或 SFT 热启动)不同。 POPE 通过预言机解决方案的前缀来增强难题,使 RL 能够在引导部署期间获得非零奖励。至关重要的是,通过遵循指令和推理之间的协同作用,由此产生的行为又回到了最初的、不受指导的问题。根据经验,POPE 扩展了可解决的问题集,并显着提高了具有挑战性的推理基准的性能 ...

0 0 0 0 2026/02/25 arXiv:2601.18779v1 yiyili

自对弈通过迭代的挑战者-求解器循环引导 LLM 推理:挑战者经过训练以生成针对求解器能力的问题,求解器根据生成的数据进行优化以扩展其推理技能。然而,像 R-Zero 这样的现有框架经常表现出非持续的改进,随着自我对弈的继续,早期的收益会下降。我们确定了一种关键的故障模式,即多样性错觉,其中求解器的训练信号看起来多种多样,但却崩溃为重复出现的潜在模式。它表现为(1)局部多样性错觉,其中多样性仅在批次内强制执行,从而引发交叉迭代模式循环; (2) 表面多样性错觉,问题表面上有所不同,但需要几乎相同的推理技能。为了缓解这些问题,我们提出了具有两项一致创新的 R-Diverse:记忆增强惩罚 (MAP),它使用持久性记忆库来阻止迭代之间的循环;以及技能感知测量 (SAM),它通过所运用的推理技能而不是问题的表面变化来评估多样性。在 10 个数学和一般推理基准测试中,R-Diverse 在更多迭代中保持了增益,并且始终优于之前的自我对弈方法。代码可从此 https URL 获取 ...

0 0 0 0 2026/02/25 arXiv:2602.13103v2 yiyili