PanTS 是一个大规模、多机构的数据集,旨在推进胰腺 CT 分析的研究。它包含来自 145 个医疗中心的 36,390 张 CT 扫描,并对超过 993,000 个解剖结构进行了专家验证的体素注释,涵盖胰腺肿瘤、胰头、胰体和尾部,以及 24 个周围解剖结构,如血管/骨骼结构和腹部/胸部器官。每次扫描都包含患者年龄、性别、诊断、对比相位、面内间距、切片厚度等元数据。与在现有公共数据集上训练的模型相比,在 PanTS 上训练的 AI 模型在胰腺肿瘤检测、定位和分割方面取得了显着更好的性能。我们的分析表明,这些收益直接归因于 16 倍大规模的肿瘤注释,并间接得到 24 个额外的周围解剖结构的支持。作为同类中最大、最全面的资源,PanTS 为开发和评估胰腺 CT 分析中的 AI 模型提供了新的基准 ...
视觉-语言-动作(VLA)模型受益于思想链(CoT)推理,但现有方法会产生高推理开销,并且依赖于与连续感知和控制不匹配的离散推理表示。我们提出了潜在推理 VLA (\textbf{LaRA-VLA}),这是一个统一的 VLA 框架,它将多模态 CoT 推理内化为具体动作的连续潜在表示。 LaRA-VLA 在潜在空间中执行统一的推理和预测,消除了推理时的显式 CoT 生成,并实现高效、面向行动的控制。为了实现潜在的体现推理,我们引入了一种基于课程的训练范式,逐步从明确的文本和视觉 CoT 监督过渡到潜在推理,并最终使潜在推理动态适应条件动作生成。我们构建了两个结构化 CoT 数据集,并在模拟基准和长期真实机器人操作任务上评估 LaRA-VLA。实验结果表明,与基于 CoT 的显式方法相比,LaRA-VLA 始终优于最先进的 VLA 方法,同时将推理延迟减少高达 90%,证明潜在推理是实时体现控制的有效且高效的范例。项目页面:\href{此 https URL}{LaRA-VLA 网站} ...
视觉-语言-动作(VLA)模型将视觉观察和语言指令直接映射到机器人动作。虽然标准 VLA 模型对简单任务有效,但通常难以处理需要逻辑规划的复杂、多步骤任务,以及需要细粒度空间感知的精确操作。最近的努力结合了思想链(CoT)推理,赋予 VLA 模型“先思考后行动”的能力。然而,当前基于 CoT 的 VLA 模型面临两个关键限制:1)由于依赖于孤立的单模态 CoT,无法同时捕获低级视觉细节和高级逻辑规划; 2) 推理延迟高,并伴有逐步自回归解码导致的复合错误。为了解决这些限制,我们提出了 DualCoT-VLA,这是一种具有并行推理机制的 VLA 模型的视觉语言 CoT 方法。为了实现全面的多模态推理,我们的方法集成了用于低级空间理解的视觉 CoT 和用于高级任务规划的语言 CoT。此外,为了克服延迟瓶颈,我们引入了并行 CoT 机制,该机制包含两组可学习的查询标记,将自回归推理转变为单步前向推理。大量实验表明,我们的 DualCoT-VLA 在 LIBERO 和 RoboCasa GR1 基准以及实际平台上实现了最先进的性能 ...
我们提出了 VIAFormer,一种体素图像对齐变换器模型,专为多视图条件体素细化而设计,即使用校准的多视图图像作为指导来修复不完整的噪声体素的任务。其有效性源于协同设计:为 2D 图像标记提供显式 3D 空间基础的图像索引、学习直接体素细化轨迹的校正流目标,以及实现稳健的跨模态融合的混合流转换器。实验表明,VIAFormer 在纠正从强大的视觉基础模型获得的体素形状上的严重合成损坏和真实伪影方面建立了一种新的技术水平。除了基准测试之外,我们还展示了 VIAFormer 作为现实世界 3D 创建流程中实用且可靠的桥梁,为基于体素的方法在大模型、大数据浪潮中蓬勃发展铺平了道路 ...
在部分遮挡(即非模态场景)下生成完整的 3D 对象是一个实际上重要但具有挑战性的问题,因为在现实场景中大部分对象几何形状是无法观察到的。现有方法要么直接在 3D 中运行,这确保了几何一致性,但通常缺乏生成表达能力,要么依赖 2D 非模态完成,这提供了强大的外观先验,但不能保证可靠的 3D 结构。这就提出了一个关键问题:我们如何在非模态 3D 建模中同时实现生成合理性和几何一致性?为了回答这个问题,我们引入了 GENA3D(GENarative Amodal 3D),这是一个框架,它将学习的 2D 生成先验与条件 3D 生成范式中的显式 3D 几何推理相集成。 2D 先验使模型能够合理地推断出各种被遮挡的内容,而 3D 表示则强制执行多视图一致性和空间有效性。我们的设计结合了用于多视图对齐的新颖的视图交叉注意和用于锚定 3D 关系中的生成预测的立体条件交叉注意。通过将生成想象力与结构约束相结合,GENA3D 从有限的观察中生成完整且连贯的 3D 对象,而不会牺牲几何保真度。实验表明,我们的方法在合成和现实世界的非模态场景中均优于现有方法,突出了桥接 2D 先验和 3D 一致性在复杂环境中生成合理且几何一致的 3D 结构的有效性 ...
扩散模型彻底改变了图像和视频的生成,实现了前所未有的视觉质量。然而,它们对 Transformer 架构的依赖会带来极高的计算成本,特别是在将生成扩展到长视频时。最近的工作探索了长视频生成的自回归公式,通常是从短视界双向教师中提取的。然而,鉴于教师模型无法合成长视频,学生模型超出其训练范围的外推通常会导致明显的质量下降,这是由于连续潜在空间内的错误复合而引起的。在本文中,我们提出了一种简单而有效的方法来减轻长视距视频生成中的质量下降,而无需长视频教师的监督或对长视频数据集进行再训练。我们的方法集中于利用教师模型的丰富知识,通过从自我生成的长视频中提取的采样片段为学生模型提供指导。我们的方法保持时间一致性,同时将视频长度扩展至超出教师能力的 20 倍,避免了过度曝光和错误累积等常见问题,而无需像以前的方法那样重新计算重叠帧。当扩大计算范围时,我们的方法显示了生成长达 4 分 15 秒的视频的能力,相当于我们的基础模型位置嵌入支持的最大跨度的 99.9%,并且比我们的基线模型长 50 倍以上。标准基准测试和我们提出的改进基准测试表明,我们的方法在保真度和一致性方面都远远优于基线方法。我们的长视距视频演示可以在此 https URL 找到 ...
知识蒸馏(KD)的最新进展使较小的学生模型能够接近较大教师模型的性能。然而,监督 KD 和同策略 KD 等流行方法在实际场景中受到师生之间知识差距的不利影响。监督 KD 存在静态数据集训练与最终学生生成输出的推理之间分布不匹配的问题。相反,使用学生生成的样本进行训练的同策略 KD 可能会遇到教师模型不熟悉的低质量训练示例,从而导致教师反馈不准确。为了解决这些限制,我们引入了推测性知识蒸馏(SKD),这是一种新颖的方法,它利用学生和教师模型之间的合作来动态生成高质量的训练数据,同时与学生的推理时间分布保持一致。在SKD中,学生提出 Token ,老师根据自己的分布替换排名较差的 Token ,自适应地传递高质量的知识。我们在各种文本生成任务上评估 SKD,包括翻译、摘要、数学和指令跟踪,并表明 SKD 在不同领域、数据大小和模型初始化策略上始终优于现有的 KD 方法 ...
大型语言模型 (LLM) 系统的性能不仅取决于模型权重,还取决于其利用:确定要存储、检索和向模型呈现哪些信息的代码。然而,线束仍然主要是手工设计的,并且现有的文本优化器与此设置的匹配性很差,因为它们过于激进地压缩反馈。我们推出 Meta-Harness,这是一个外环系统,可以搜索 LLM 应用程序的 Harness 代码。它使用代理提议者,通过文件系统访问所有先前候选者的源代码、分数和执行跟踪。在在线文本分类方面,Meta-Harness 比最先进的上下文管理系统提高了 7.7 个点,同时使用的上下文标记减少了 4 倍。在检索增强数学推理方面,一个发现的工具将 5 个保留模型中 200 个 IMO 级别问题的准确性平均提高了 4.7 分。在代理编码方面,发现的工具超越了 TerminalBench-2 上最好的手工设计基线。总之,这些结果表明,更丰富地获取先前的经验可以实现自动化线束工程 ...
工具使用能力对于金融领域的大型语言模型 (LLM) 至关重要,该领域的特点是海量投资目标和数据密集型查询。然而,现有的数据合成方法通常依赖于逆向合成范例,从预采样工具生成用户查询。这种方法不可避免地引入了人为的明确性,产生的查询无法捕获现实世界需求的隐式、事件驱动的本质。此外,它对静态工具集的依赖忽视了导航庞大工具空间所需的动态检索过程。为了应对这些挑战,我们引入了 \textit{FinToolSyn},这是一个旨在生成高质量金融对话的正向综合框架。从角色指令和原子工具合成到动态检索对话生成,我们的管道构建了一个包含 43,066 个工具的存储库,并合成了超过 148k 个对话实例,结合动态检索来模拟大规模工具空间中典型的嘈杂候选集。我们还建立了专门的基准来评估现实金融场景中的工具调用能力。大量实验表明,在 FinToolSyn 上训练的模型实现了 21.06% 的提升,为金融场景下的工具学习提供了坚实的基础 ...
虽然 LLM 的推理在数学、代码生成和多跳事实问题中发挥着自然的作用,但它对简单、单跳事实问题的影响仍不清楚。此类问题不需要逐步的逻辑分解,使得推理的效用非常违反直觉。尽管如此,我们发现启用推理极大地扩展了模型参数化知识回忆的能力边界,解锁了否则实际上无法获得的正确答案。当没有复杂的推理步骤需要完成时,为什么推理有助于参数知识的回忆?为了回答这个问题,我们设计了一系列假设驱动的受控实验,并确定了两个关键的驱动机制:(1)计算缓冲效应,模型使用生成的推理标记来执行独立于其语义内容的潜在计算; (2)事实启动,生成主题相关的事实充当语义桥梁,促进正确答案检索。重要的是,后一种生成式自我检索机制具有固有的风险:我们证明,在推理过程中产生幻觉中间事实会增加最终答案中产生幻觉的可能性。最后,我们表明,通过优先考虑包含无幻觉事实陈述的推理轨迹,可以利用我们的见解来直接提高模型的准确性 ...