通过在高维语义潜在空间中进行训练,表示自动编码器 (RAE) 在 ImageNet 上的扩散建模中显示出明显的优势。在这项工作中,我们研究了该框架是否可以扩展到大规模、自由格式的文本到图像(T2I)生成。我们首先通过对网络、合成和文本渲染数据进行训练,将冻结表示编码器 (SigLIP-2) 上的 RAE 解码器扩展到 ImageNet 之外,发现虽然规模提高了总体保真度,但有针对性的数据组合对于文本等特定领域至关重要。然后,我们对最初为 ImageNet 提出的 RAE 设计选择进行严格的压力测试。我们的分析表明,扩展简化了框架:虽然与维度相关的噪声调度仍然至关重要,但诸如宽扩散头和噪声增强解码之类的架构复杂性在规模上提供的优势可以忽略不计。在这个简化的框架上构建,我们对扩散 Transformer 从 0.5B 到 9.8B 参数范围内的 RAE 与最先进的 FLUX VAE 进行了受控比较。在所有模型规模的预训练过程中,RAE 的表现始终优于 VAE。此外,在对高质量数据集进行微调期间,基于 VAE 的模型在 64 个 epoch 后出现灾难性的过拟合,而 RAE 模型在 256 个 epoch 中保持稳定,并始终获得更好的性能。在所有实验中,基于 RAE 的扩散模型表现出更快的收敛速度和更好的生成质量,使 RAE 成为比 VAE 更简单、更强大的基础,可用于大规模 T2I 生成。此外,由于视觉理解和生成都可以在共享表示空间中运行,因此多模态模型可以直接对生成的潜在变量进行推理,为统一模型开辟了新的可能性 ...
现有的多人视频3D人体姿势和形状估计(PSE)方法通常采用两阶段策略,首先检测每帧中的人体实例,然后使用时间模型执行单人PSE。然而,无法捕获空间实例之间的全局时空上下文。在本文中,我们提出了一种具有渐进式视频转换器的新的端到端多人 3D 姿势和形状估计框架,称为 PSVT。在 PSVT 中,时空编码器 (STE) 捕获空间对象之间的全局特征依赖性。然后,时空姿态解码器(STPD)和形状解码器(STSD)分别捕获姿态查询和特征标记、形状查询和特征标记之间的全局依赖关系。为了处理对象随时间变化的变化,使用了一种新颖的渐进解码方案来更新每帧的姿势和形状查询。此外,我们为形状解码器提出了一种新颖的姿势引导注意力(PGA),以更好地预测形状参数。这两个组件增强了 PSVT 的解码器以提高性能。对四个数据集的大量实验表明 PSVT 取得了最先进的结果 ...
我们介绍了DeepSeek-Prover-V2,这是一种旨在正式定理的开源大语言模型,该模型在LEAN 4中证明,通过递归定理收集的初始化数据证明了由DeepSeek-V3供电的管道。冷启动训练程序首先促使DeepSeek-V3将复杂的问题分解为一系列子目标。解决的子目标的证明被合成为一个经过思考的过程,并结合了DeepSeek-V3的逐步推理,为增强学习创造了最初的冷启动 ...
GELU、层归一化和 Softmax 等非线性运算是 Transformer 模型必不可少但成本高昂的构建块。一些先前的工作通过查找表或整数计算简化了这些操作,但这种近似的准确性较低或相当大的硬件成本和较长的延迟。本文提出了一种准确且硬件友好的近似框架,用于高效的 Transformer 推理。我们的框架采用一个简单的神经网络作为通用逼近器,其结构等效地转换为 LUT。所提出的名为 NN-LUT 的框架可以准确地取代流行的 BERT 模型中的所有非线性操作,并显着减少面积、功耗和延迟 ...
自注意力机制将基于 Transformer 的大语言模型 (LLM) 与卷积神经网络和循环神经网络区分开来。尽管性能有所提高,但由于 Softmax 在自注意力方面的广泛使用,在芯片上实现实时 LLM 推理仍然具有挑战性。除了非线性之外,低算术强度还严重限制了处理并行性,尤其是在处理较长上下文时。为了应对这一挑战,我们提出了 Constant Softmax (ConSmax),这是一种软硬件协同设计,可作为 Softmax 的有效替代方案。 ConSmax 利用可微归一化参数来消除 Softmax 中最大搜索和分母求和的需要。这种方法可以实现广泛的并行化,同时仍然执行 Softmax 的基本功能。此外,具有位宽分割查找表(LUT)的可扩展ConSmax硬件设计可以实现无损非线性运算并支持混合精度计算。实验结果表明,ConSmax采用16nm FinFET技术,在1250MHz工作频率下实现了0.2mW的微功耗和0.0008mm^2的面积。为了开源贡献,我们在 SkyWater 的 130nm CMOS 技术下使用 OpenROAD 工具链进一步实现了我们的设计。对应功率为2.69mW,面积为0.007mm^2。 ConSmax 在 16nm 技术中实现了 3.35 倍的功耗和 2.75 倍的面积节省,并且利用开源 EDA 工具链实现了 3.15 倍的功耗和 4.14 倍的面积节省。同时,它在 GPT-2 模型和 WikiText103 数据集上也保持了相当的准确性。该项目可通过此 https URL 获取 ...
我们展示了来自与 30 Doradus 恒星形成区域相关的分子云的 CO(2-1) 和 $^{13}$CO(2-1) 发射的宽视场(大约 60 x 90 pc)ALMA 镶嵌结果。三个主要的发射复合体,包括两个形成从中央 R136 星团向东北和西南延伸的领结形结构,被分解成复杂的丝状网络。与之前的研究一致,我们发现相对于分子云的其余部分和其他 LMC 云,分子云的中心区域在固定尺寸下具有更高的线宽,表明湍流运动水平增强。然而,引力边界(通过维里参数测量)随距 R136 的距离没有明显的趋势。在 $^{13}$CO 中观察到的结构在空间上与细丝重合,并且接近维里平衡状态。相比之下,CO 结构在病毒化过程中变化很大,主丝状网络之外的低 CO 表面亮度结构主要是未结合的。低表面亮度结构约占测量的 CO 光度的 10%;它们可能是先前形成恒星的气体团块的碎片残余物,或者是更大质量的二氧化碳暗结构的二氧化碳排放部分 ...
分布变化下的时间序列预测仍然具有挑战性,因为现有的深度学习模型通常依赖于局部统计归一化(例如均值和方差),而无法捕获全局分布变化。 RevIN 及其变体等方法试图解耦分布和模式,但仍然面临缺失值、噪声观测和无效通道仿射变换的问题。为了解决这些限制,我们提出了仿射原型时间戳(APT),这是一个轻量级且灵活的插件模块,它将全局分布特征注入到标准化预测管道中。通过利用时间戳条件原型学习,APT 动态生成调节输入和输出序列的仿射参数,使骨干网能够从自我监督、分布感知的集群实例中学习。 APT 与任意预测主干和标准化策略兼容,同时引入最小的计算开销。跨越六个基准数据集和多个骨干归一化组合的广泛实验表明,APT 显着提高了分布变化下的预测性能 ...
准确的全心分割是心血管疾病精准诊断和介入规划的关键组成部分。集成来自计算机断层扫描 (CT) 和磁共振成像 (MRI) 等模式的补充信息可以显着提高分割准确性和鲁棒性。然而,现有的多模态分割方法面临着一些局限性:模态之间严重的空间不一致阻碍了有效的特征融合;融合策略往往是静态的,缺乏适应性;并且特征对齐和分割的过程是解耦且低效的。为了应对这些挑战,我们提出了一种通过强化学习进行特征对齐增强的双分支 U-Net 架构,称为 RL-U$^2$Net,专为精确高效的多模态 3D 全心分割而设计。该模型采用双分支 U 形网络并行处理 CT 和 MRI 斑块,并在编码器之间引入新型 RL-XAlign 模块。该模块采用跨模态注意机制来捕获模态之间的语义对应关系,并且强化学习代理学习一致地对齐解剖姿势和纹理特征的最佳旋转策略。然后通过它们各自的解码器重建对齐的特征。最后,基于集成学习的决策模块集成各个补丁的预测以产生最终的分割结果。在公开的 MM-WHS 2017 数据集上的实验结果表明,所提出的 RL-U$^2$Net 优于现有的最先进方法,在 CT 上实现了 93.1% 的 Dice 系数,在 MRI 上实现了 87.0% 的 Dice 系数,从而验证了所提出方法的有效性和优越性 ...
开发大型语言模型 (LLM) 所需的大量投资使其成为宝贵的知识产权,引发了人们对版权保护的严重担忧。 LLM 指纹识别已成为解决此问题的一项关键技术,其目的是通过提取固有的、唯一的签名(“指纹”)并将其与源模型的签名进行比较来识别非法副本,从而验证模型的起源。然而,现有的黑盒指纹识别方法通常无法生成独特的 LLM 指纹。出现这种无效性的原因是黑盒方法通常依赖于模型输出,而模型输出由于使用非线性函数而丢失了有关模型独特参数的关键信息。为了解决这个问题,我们首先利用费希尔信息理论来正式证明模型输入的梯度对于指纹识别而言比输出更具信息性。基于这一见解,我们提出了 ZeroPrint,这是一种使用零阶估计在黑盒设置中近似这些信息丰富的梯度的新颖方法。 ZeroPrint 通过保留语义的单词替换来模拟输入扰动,克服了将其应用于离散文本的挑战。此操作允许 ZeroPrint 将模型的雅可比矩阵估计为唯一的指纹。标准基准测试表明 ZeroPrint 实现了最先进的有效性和鲁棒性,显着优于现有的黑盒方法 ...
虽然基础模型在语言和视觉方面显示出显着的进步,但现有的视觉语言模型(VLM)仍然对空间和具体化理解有限。将 VLM 转移到具体领域揭示了模式、预训练分布和训练目标之间的根本不匹配,使动作理解和生成成为 AGI 道路上的中心瓶颈。我们引入了 WALL-OSS,这是一种端到端的具体化基础模型,它利用大规模多模态预训练来实现(1)具体化感知的视觉语言理解,(2)强大的语言-动作关联,以及(3)强大的操作能力。我们的方法采用紧密耦合的架构和多策略培训课程,使统一的跨级 CoT 能够在单个可微框架内无缝统一指令推理、子目标分解和细粒度动作合成。我们的结果表明,WALL-OSS 在复杂的长视野操作上取得了巨大成功,展示了强大的指令跟踪能力、复杂的理解和推理能力,并且优于强大的基线,从而提供了从 VLM 到具体基础模型的可靠且可扩展的路径 ...