odenkkk的文档

Ising Hamiltonian Minimization: Gain-Based Computing with Manifold Reduction of Soft-Spins vs Quantum Annealing

我们研究了Ising Hamiltonians的最小化，比较了基于量子退火的半经典软旋转模型的动力学基于增益的计算范例的性能。我们系统地分析了Mobius图的循环耦合的能量格局如何随着退火参数的增加而演变。我们的发现表明，这些半古典模型由于维度的扩大而面临挑战 ...

0 0 0 0 2025/06/09 arXiv:2311.17359v2 odenkkk

Why Gradients Rapidly Increase Near the End of Training

在长期大型语言模型（LLM）培训期间，梯度规范在培训结束结束时迅速增加。在此简短说明中，我们表明，这种增加是由于体重衰减，标准化层和学习率计划之间的意外相互作用。我们提出了一种简单的校正，可以解决此行为，同时也导致整个训练中的损失值较低 ...

0 0 0 0 2025/06/09 arXiv:2506.02285v1 odenkkk

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

对操纵的模仿学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同，没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频 ...

0 0 0 0 2025/05/28 arXiv:2505.11709v1 odenkkk

Neural Thermodynamics I: Entropic Forces in Deep and Universal Representation Learning

随着深度学习和大型语言模型中新兴现象的迅速发现，解释和理解其原因已成为迫切需要。在这里，我们提出了一种严格的熵力理论，用于理解接受随机梯度下降（SGD）及其变体训练的神经网络的学习动力学。在参数对称性和熵损失格局的基础上，我们表明表示学习是由随机性和离散时间更新引起的紧急熵力至关重要的 ...

0 0 0 0 2025/05/27 arXiv:2505.12387v1 odenkkk

Learning with Local Search MCMC Layers

将组合优化层集成到神经网络中最近引起了重大的研究兴趣。但是，许多现有的方法缺乏理论保证或在依靠不精确求解器时无法充分执行。这是一个关键的局限性，因为许多操作研究问题都是NP-HARD，通常需要使用基于邻里的本地搜索启发式方法 ...

0 0 0 0 2025/05/27 arXiv:2505.14240v1 odenkkk

Panda: A pretrained forecast model for universal representation of chaotic dynamics

混沌系统对小错误本质上是敏感的，这具有挑战性的努力，以构建现实世界动态系统（例如流体流或神经元活动）的预测数据驱动模型。先前的努力包括在单个时间序列上单独培训的专业模型，或者在庞大的时间序列数据库中培训的基础模型很少有基本的动态结构。在动力学系统理论的启发下，我们提出了熊猫，对非线性动力学进行了修补 ...

0 0 0 0 2025/05/27 arXiv:2505.13755v1 odenkkk

Dissecting the NVIDIA Hopper Architecture through Microbenchmarking and Multiple Level Analysis

现代GPU凭借其专门的硬件（如张量核心），对于要求AI和深度学习应用至关重要。这项研究介绍了NVIDIA HOPPER GPU架构的全面，多级微型分析分析，并深入研究了其性能特征和新颖特征。我们基于Hopper的内存子系统延迟和吞吐量，将其L2分区的缓存行为和全局内存访问模式与最近的GPU Generations，Ampere和Ada Lovelace进行了比较 ...

0 0 0 0 2025/05/13 arXiv:2501.12084v1 odenkkk

Occamy: A 432-Core Dual-Chiplet Dual-HBM2E 768-DP-GFLOP/s RISC-V System for 8-to-64-bit Dense and Sparse Computing in 12nm FinFET

ML和HPC应用程序越来越多地结合了密集和稀疏的内存访问计算，以最大程度地提高存储效率。但是，现有的CPU和GPU努力以始终高的计算效率灵活地处理这些异质工作负载。我们介绍了Occamy，一个432核，768-DP-GFLOP/S，Dual-HBM2E，双芯片RISC-V系统，具有耐潜力的层次结构互连和核内流媒体（SUS），旨在加速FP8至FP8至FP8至FP64 mL和HPC和HPC的工作量 ...

0 0 0 0 2025/05/13 arXiv:2501.07330v1 odenkkk

Faster Inference of LLMs using FP8 on the Intel Gaudi

低精度数据类型在训练和推理期间在现代神经网络中至关重要，因为它们通过更好地利用可用的硬件资源来增强吞吐量和计算能力。尽管将FP8纳入了市售的神经网络加速器中，但仍然缺乏对其潜在机制的全面阐述，以及严格的性能和准确性评估。在这项工作中，我们以三种重要的方式做出了贡献 ...

0 0 0 0 2025/05/13 arXiv:2503.09975v3 odenkkk

Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

大型语言模型（LLMS）具有出色的功能，但其高推理成本限制了更广泛的采用。同时增加参数计数可以提高准确性，但它也扩大了最新功能和实际部署性之间的差距。我们提出难题，这是一种硬件感知框架，可以在保留其功能的同时加速LLM的推断 ...

0 0 0 0 2025/05/09 arXiv:2411.19146v4 odenkkk