扩散生成模型在图像和视频生成等视觉域中表现出了很大的成功。他们最近还成为机器人技术中的一种有前途的方法,尤其是在机器人操作中。扩散模型利用了一个概率框架,他们以对高维输入和输出空间进行建模多模式分布以及鲁棒性的能力而脱颖而出 ...
神经网络是其输入和参数的复杂函数。深度学习理论的许多先前工作分析了固定一组输入的网络输出的分布(例如 ...
最近的研究表明,深度神经网络(DNN)的高压,例如,DNN的重量基质的大量修剪会导致准确性和对对抗攻击的敏感性严重下降 ...
长度的概括,从小型培训环境大小到较大的能力是开发基于 Transformer 的语言模型的关键挑战。位置编码(PE)已被确定为影响长度泛化的主要因素,但是不同的PE方案对下游任务中外推的确切影响尚不清楚。在本文中,我们进行了一项系统的经验研究,比较了仅解码器 Transformer 与五种不同位置编码方法的长度泛化性能,包括绝对位置嵌入(APE),T5的相对PE,Alibi和Rotary,除了没有位置编码(NOPE)的 Transformer 外,除了 Transformer 外(NOPE) ...
大型语言模型(LLMS)在复杂的任务中表现出了出色的功能。大型推理模型(LRMS)的最新进展,例如OpenAI O1和DeepSeek-R1,通过利用监督的微调(SFT)和加强学习(RL)技术来进一步提高了System-2推理领域(如数学和编程)的性能。但是,尽管较长的COT推理序列改善了性能,但由于冗余和冗余输出(称为“过度思考现象”),它们也引入了重要的计算开销 ...
物理人工智能首先需要进行数字化训练。它需要自身的数字孪生,即政策模型,以及世界的数字孪生,即世界模型。在本文中,我们提出了 Cosmos World 基础模型平台,以帮助开发人员为其物理 AI 设置构建定制的世界模型 ...
尽管它们以物理启发,基于能量的和生成性质的吸引力,但鲍尔茨曼机器(BM)还是被认为是训练的棘手。这种信念导致了BMS的简化模型,并具有受限的内部连接或对深BMS的层次训练。域特异性硬件的最新发展 - 特别是具有概率位的概率计算机(P-Computer)(P-BITS(P-BIT))可能会改变Deep BMS障碍性的既定智慧 ...
生成神经网络可以根据其训练分布的统计特性生成数据样本。此功能可用于测试现代计算神经科学假设,表明自发的大脑活动受自上而下的生成处理部分支持。经过广泛研究的生成模型是受限的玻尔兹曼机器(RBMS),可用作无监督的深度学习体系结构的构件 ...
本文介绍了Sana-Sprint,这是一种超快速文本图像(T2i)生成的有效扩散模型。 Sana-Sprint建立在预先训练的基础模型上,并通过混合蒸馏增强,将推理步骤从20至1-4大幅降低。我们介绍了三个关键的创新:(1)我们提出了一种无训练方法,该方法改变了持续时间一致性蒸馏(SCM)的预训练的流动匹配模型(SCM),从而消除了从SCRATCH中消除昂贵的培训并实现了高训练效率 ...
现代复发序列模型的重要组成部分是忘记门。虽然 Transformer 没有明确的复发形式,但我们表明,通过以数据依赖性方式将忘记的门自然地纳入变形金刚中。我们将这种注意机制命名为忘记关注和由此产生的模型遗忘 Transformer (FOX) ...