对操纵的模仿学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频 ...
随着深度学习和大型语言模型中新兴现象的迅速发现,解释和理解其原因已成为迫切需要。在这里,我们提出了一种严格的熵力理论,用于理解接受随机梯度下降(SGD)及其变体训练的神经网络的学习动力学。在参数对称性和熵损失格局的基础上,我们表明表示学习是由随机性和离散时间更新引起的紧急熵力至关重要的 ...
将组合优化层集成到神经网络中最近引起了重大的研究兴趣。但是,许多现有的方法缺乏理论保证或在依靠不精确求解器时无法充分执行。这是一个关键的局限性,因为许多操作研究问题都是NP-HARD,通常需要使用基于邻里的本地搜索启发式方法 ...
混沌系统对小错误本质上是敏感的,这具有挑战性的努力,以构建现实世界动态系统(例如流体流或神经元活动)的预测数据驱动模型。先前的努力包括在单个时间序列上单独培训的专业模型,或者在庞大的时间序列数据库中培训的基础模型很少有基本的动态结构。在动力学系统理论的启发下,我们提出了熊猫,对非线性动力学进行了修补 ...
现代GPU凭借其专门的硬件(如张量核心),对于要求AI和深度学习应用至关重要。这项研究介绍了NVIDIA HOPPER GPU架构的全面,多级微型分析分析,并深入研究了其性能特征和新颖特征。我们基于Hopper的内存子系统延迟和吞吐量,将其L2分区的缓存行为和全局内存访问模式与最近的GPU Generations,Ampere和Ada Lovelace进行了比较 ...
ML和HPC应用程序越来越多地结合了密集和稀疏的内存访问计算,以最大程度地提高存储效率。但是,现有的CPU和GPU努力以始终高的计算效率灵活地处理这些异质工作负载。我们介绍了Occamy,一个432核,768-DP-GFLOP/S,Dual-HBM2E,双芯片RISC-V系统,具有耐潜力的层次结构互连和核内流媒体(SUS),旨在加速FP8至FP8至FP8至FP64 mL和HPC和HPC的工作量 ...
低精度数据类型在训练和推理期间在现代神经网络中至关重要,因为它们通过更好地利用可用的硬件资源来增强吞吐量和计算能力。尽管将FP8纳入了市售的神经网络加速器中,但仍然缺乏对其潜在机制的全面阐述,以及严格的性能和准确性评估。在这项工作中,我们以三种重要的方式做出了贡献 ...
大型语言模型(LLMS)具有出色的功能,但其高推理成本限制了更广泛的采用。同时增加参数计数可以提高准确性,但它也扩大了最新功能和实际部署性之间的差距。我们提出难题,这是一种硬件感知框架,可以在保留其功能的同时加速LLM的推断 ...
我们介绍了Llama-Nemotron系列模型,这是一个开放的异构推理模型家族,可提供出色的推理能力,推理效率和企业使用的开放许可。这个家庭有三种尺寸 - 纳米(8b),Super(49b)和Ultra(253b) - 并与最先进的推理模型(例如DeepSeek-R1)一起竞争,同时提供了出色的推理吞吐量和记忆效率。在本报告中,我们讨论了这些模型的培训程序,这些模型需要使用Llama 3模型的神经体系结构搜索进行加速推理,知识蒸馏和持续预处理,然后进行以推理为中心的训练后阶段,由两个主要部分组成:受监管的精细调整和大规模增强学习 ...
在粒子物理学中,基本力受到称为仪表不变性的对称性。这是任何物理系统的数学描述中的冗余。在本文中,我将证明 Transformer 体系结构具有相同的属性,并表明变形金刚的默认表示形式已部分但并未完全删除量规不变性 ...