图像合成涉及将给定对象无缝地集成到特定的视觉环境中。当前的免训练方法依赖于组合多个采样器的注意力权重来指导生成器。然而,由于这些权重来自不同的上下文,它们的组合会导致连贯性混乱和外观信息的丢失。由于过度关注背景生成,这些问题变得更加严重,即使在这项任务中是不必要的。这不仅阻碍了它们的快速实施,而且还损害了前台生成的质量。此外,这些方法在过渡区域引入了不需要的伪影。在本文中,我们将图像合成制定为基于主题的本地编辑任务,仅关注前景生成。在每一步中,编辑后的前景都会与嘈杂的背景相结合,以保持场景的一致性。为了解决剩下的问题,我们提出了 PrimeComposer,这是一种更快的免训练扩散器,它通过精心设计的跨不同噪声水平的注意力引导来合成图像。这种转向主要是由我们的相关扩散器实现的,在每一步都利用其自注意力层。在这些层中,合成的主体与参考对象和背景交互,捕捉复杂的细节和连贯的关系。该先验信息被编码到注意力权重中,然后将其集成到生成器的自注意力层中以指导合成过程。此外,我们引入了区域约束交叉注意,将特定主题相关标记的影响限制在所需区域,解决了先前方法中显示的不需要的伪影,从而进一步提高了过渡区域的一致性。我们的方法表现出最快的推理效率,广泛的实验在定性和定量上证明了我们的优势 ...
最近,政策梯度(PG)方法取得的令人印象深刻的实证成功促进了其理论基础的发展。尽管在设计高效的随机 PG 型算法方面付出了巨大的努力,但对其收敛到全局最优策略的理解仍然有限。在这项工作中,我们为一类费舍尔非退化参数化策略开发了改进的全局收敛保证,可以解决连续状态行动空间的情况。首先,我们提出了一种具有隐式梯度传输的归一化策略梯度方法(N-PG-IGT),并推导出该方法的 $\tilde{\mathcal{O}}(\varepsilon^{-2.5})$ 样本复杂度,以找到全局 $\varepsilon$ 最优策略。该算法比之前已知的 $\tilde{\mathcal{O}}(\varepsilon^{-3})$ 复杂度有所提高,不需要使用重要性采样或二阶信息,并且每次迭代仅采样一个轨迹。其次,我们通过考虑使用基于 Hessian 向量积的修正增强的 Hessian 辅助递归策略梯度 ((N)-HARPG) 算法,进一步将这种复杂性提高到 $\tilde{ \mathcal{\mathcal{O}} }(\varepsilon^{-2})$。有趣的是,这两种算法都简单且易于实现:单循环,不需要大批量的轨迹并且每次迭代最多采样两个轨迹; $(ii)$ 计算和内存效率高:它们在每次迭代时不需要昂贵的子例程,并且可以通过参数维度的内存线性来实现 ...
擦拭和组装等接触丰富的操作任务需要准确感知接触力、摩擦力变化和状态转换,而这些仅从视觉无法可靠地推断出来。尽管人们对视觉触觉操纵的兴趣日益浓厚,但进展受到两个持续存在的限制:现有数据集规模小且任务覆盖范围窄,并且当前的方法将触觉信号视为被动观察,而不是使用它们来建模接触动力学或明确地实现闭环控制。在本文中,我们提出了 \textbf{OmniViTac},这是一个大规模的视觉触觉动作数据集,包含跨越 $86$ 任务和 $100+$ 对象的 $21{,}000+$ 轨迹,组织成六种基于物理的交互模式。在此数据集的基础上,我们提出了 \textbf{OmniVTA},一个基于世界模型的视觉触觉操纵框架,集成了四个紧密耦合的模块:自监督触觉编码器、用于预测短视界接触演化的双流视觉触觉世界模型、用于动作生成的接触感知融合策略以及用于纠正闭环中预测和观察到的触觉信号之间的偏差的 60Hz 反射控制器。所有六个交互类别的真实机器人实验表明,OmniVTA 的性能优于现有方法,并且可以很好地推广到看不见的物体和几何配置,从而证实了将预测接触建模与高频触觉反馈相结合以实现丰富接触操作的价值。所有数据、模型和代码都将在项目网站上公开提供,网址为 https URL ...
学习解决车辆路径问题(VRP)引起了广泛关注。然而,大多数神经求解器仅针对特定问题进行独立构建和训练,这使得它们不太通用和实用。在本文中,我们的目标是开发一个统一的神经求解器,可以同时处理一系列 VRP 变体。具体来说,我们提出了一种具有混合专家(MVMoE)的多任务车辆路径求解器,它极大地增强了模型容量,而无需按比例增加计算量。我们进一步为 MVMoE 开发了一种分层门控机制,在经验性能和计算复杂性之间提供了良好的权衡。实验上,我们的方法显着提高了 10 个未见过的 VRP 变体的零样本泛化性能,并在少样本设置和真实世界基准实例上展示了不错的结果。我们进一步对 MoE 配置在求解 VRP 中的影响进行了广泛的研究,并观察了分层门控在面对分布外数据时的优越性。源代码位于:此 https URL ...
目的:在腹腔镜肝脏手术 (LLS) 中,通过将 3D 术前模型配准到根据腹腔镜视频重建的术中局部表面,可以将术前信息叠加到术中场景上。为了协助完成这项任务,我们探索了基于学习的特征描述符的使用,据我们所知,尚未探索将其用于腹腔镜肝脏配准。此外,不存在用于训练和评估基于学习的描述符的使用的数据集。方法:我们提出了由 16 个术前模型及其模拟的术中 3D 表面组成的 LiverMatch 数据集。我们还提出了为此任务设计的 LiverMatch 网络,该网络输出每点特征描述符、可见性分数和匹配点。结果:我们将所提出的 LiverMatch 网络与最接近 LiverMatch 的网络以及 LiverMatch 数据集测试分割上基于直方图的 3D 描述符进行比较,其中包括两个未见过的术前模型和 1400 个术中表面。结果表明,我们的 LiverMatch 网络可以比其他两种方法预测更准确和更密集的匹配,并且可以与基于 RANSAC-ICP 的配准算法无缝集成,以实现准确的初始对齐。结论:在 LLR 中使用基于学习的特征描述符是有前途的,因为它可以帮助实现准确的初始刚性对齐,进而作为后续非刚性配准的初始化。我们将在接受后发布数据集和代码 ...
技能增量学习 (SIL) 是一个具体代理通过利用与其环境交互或通过集成其他数据获得的经验,随着时间的推移扩展和完善其技能集的过程。 SIL 有助于有效获取基于下游任务可重用技能的分层策略。然而,随着技能库的发展,它可能会破坏与现有基于技能的策略的兼容性,限制其可重用性和通用性。在这项工作中,我们提出了 SIL-C,这是一种确保技能政策兼容性的新颖框架,允许改进逐步学习的技能,以提高下游政策的绩效,而无需政策重新培训或结构调整。 SIL-C 采用基于双边惰性学习的映射技术,将策略引用的子任务空间与解码为代理行为的技能空间动态对齐。这使得从复杂任务的策略分解中导出的每个子任务能够通过基于轨迹分布相似性选择适当的技能来执行。我们在不同的 SIL 场景中评估 SIL-C,并证明它保持不断发展的技能和下游政策之间的兼容性,同时确保整个学习过程的效率 ...
大型语言模型 (LLM) 经常面临生成错误或幻觉响应的挑战,尤其是在复杂的推理任务中。利用知识图(KG)作为外部知识源已成为一种可行的解决方案。然而,现有的知识图谱增强方法,无论是基于检索还是基于代理,在准确检索知识和大规模有效遍历知识图谱方面都遇到了困难。在本文中,我们提出了一个统一的框架 FiDeLiS,旨在通过将答案锚定到从 KG 检索到的可验证推理步骤来提高 LLM 响应的真实性。为了实现这一目标,我们利用带有演绎评分函数的逐步波束搜索,允许 LLM 逐步验证推理过程,并在问题可演绎后停止搜索。此外,我们提出了一个 Path-RAG 模块,为每个波束搜索步骤预先选择较小的候选集,通过缩小搜索空间来降低计算成本。大量的实验表明,我们的方法作为一个免训练的框架,不仅提高了性能,而且增强了跨不同基准的真实性和可解释性。代码在此 https URL 发布 ...
大型语言模型(LLMS)越来越多地通过加强学习(RL)方法(例如小组相对策略优化(GRPO))来适应下游任务,这些方法通常需要数千个推出才能学习新任务。我们认为,与从稀疏,标量奖励获得的政策梯度相比,语言的可解释性质通常可以为LLM提供更丰富的学习媒介。为了测试这一点,我们介绍了GEPA(遗传 - pareto),这是一个及时的优化器,彻底结合了自然语言反思,以从反复试验中学习高级规则 ...
基于图像的模型强化学习(MBRL)的一个核心挑战是学习从不相关的视觉细节中提取重要信息的表示。虽然很有希望,但基于重建的方法经常在与任务无关的大区域上浪费容量。无解码器方法而是通过利用数据增强(DA)来学习鲁棒的表示,但对此类外部正则化器的依赖限制了多功能性。我们提出了 R2-Dreamer,这是一个无解码器的 MBRL 框架,具有自我监督的目标,可作为内部正则化器,在不诉诸 DA 的情况下防止表示崩溃。我们方法的核心是受 Barlow Twins 启发的冗余减少目标,它可以轻松集成到现有框架中。在 DeepMind Control Suite 和 Meta-World 上,R2-Dreamer 与 DreamerV3 和 TD-MPC2 等强大基线具有竞争力,同时训练速度比 DreamerV3 快 1.59 倍,并且在具有微小任务相关对象的 DMC-Subtle 上产生了显着的收益。这些结果表明,有效的内部正则器可以实现多功能、高性能的无解码器 MBRL。代码可从此 https URL 获取 ...
人们越来越有兴趣将人工智能应用于放射学报告生成,特别是胸部 X 光检查 (CXR)。本文研究了通过分割掩模合并像素级信息是否可以改进用于放射学报告生成的多模态大语言模型(MLLM)的细粒度图像解释。我们引入了 MAIRA-Seg,这是一种分段感知的 MLLM 框架,旨在利用语义分段掩模和 CXR 来生成放射学报告。我们训练专家分割模型以获得 CXR 中放射学特定结构的掩模伪标签。随后,在 MAIRA(一种用于报告生成的 CXR 专用模型)的架构基础上,我们集成了一个可训练的分段标记提取器,该提取器利用这些掩模伪标签,并采用掩模感知提示来生成放射学报告草稿。我们在公开的 MIMIC-CXR 数据集上进行的实验表明,MAIRA-Seg 的性能优于非分割基线。我们还调查了 MAIRA 的标记集提示,发现 MAIRA-Seg 始终表现出可比或优越的性能。结果证实,使用分割掩模增强了 MLLM 的细致推理,可能有助于更好的临床结果 ...