Transformer 是现代神经网络最成功的架构之一。它们的核心是所谓的注意力机制,它最近引起了物理学界的兴趣,因为在某些情况下它可以被写成能量函数的导数:而可以将交叉注意力层写成现代 Hopfield 网络,对于 GPT 架构和其他自回归模型中使用的自注意力来说,同样的情况是不可能的。在这项工作中,我们证明可以获得自注意力层作为局部能量项的导数,这类似于伪似然 ...

0 0 0 0 2024/12/23 arXiv:2409.16112v1 odenkkk

快速卷积算法,包括Winograd和FFT,可以有效加速深度模型中的卷积运算。然而,这些算法依赖于高精度算术来维持推理精度,这与模型量化相冲突。为了解决这一冲突并进一步提高量化卷积的效率,我们提出了SFC,一种通过用符号计算扩展离散傅立叶变换(DFT)来实现快速卷积的新代数变换,其中只需要加法就可以在特定变换处执行变换点,避免了无理数的计算,降低了对精度的要求 ...

0 0 0 0 2024/12/23 arXiv:2407.02913v1 odenkkk

我们提出了 ESPACE,一种基于激活降维的 LLM 压缩技术。与之前以权重为中心的张量分解的工作不同,ESPACE 将激活投影到一组预先校准的主成分上。该方法的激活中心性使 LLM 能够在不损失表达能力的情况下进行再培训;而在推理时,权重分解是作为矩阵乘法结合性的副产品而获得的 ...

0 0 0 0 2024/12/17 arXiv:2410.05437v1 odenkkk

我们为一类模拟 Lipschitz(或 Hölder)连续映射 $\mathcal G:\mathcal X\to\mathcal Y$ 的神经深度算子网络(DON)建立了普适性和表达率界限,在可分离希尔伯特空间(子集)之间 $\数学X$,$\数学Y$。所考虑的 DON 架构使用线性编码器 $\mathcal E$ 和解码器 $\mathcal D$,通过 $\mathcal X$、$\mathcal Y$ 的(双正交)Riesz 基以及无限维参数坐标的逼近器网络映射在序列空间 $\ell^2(\mathbb N)$ 上是 Lipschitz 连续的。与之前的作品不同([Herrmann、Schwab 和 Zech:神经和谱算子代理:构造和表达率界限,SAM 报告,2022]、[Marcati 和 Schwab:椭圆偏微分方程深度算子网络的指数收敛,SAM 报告,2022 ]),例如要求 $\mathcal G$ 是全纯的,目前的表达率结果只需要$\mathcal G$ 的 Lipschitz(或 Hölder)连续性 ...

0 0 0 0 2024/12/17 arXiv:2307.09835v1 odenkkk

低精度训练和推理会影响语言模型的质量和成本,但当前的缩放法则并未考虑到这一点。在这项工作中,我们为训练和推理设计了“精确感知”的缩放法则。我们建议,较低精度的训练会减少模型的“有效参数计数”,使我们能够预测低精度训练和训练后量化所产生的额外损失 ...

0 0 0 0 2024/12/09 arXiv:2411.04330v2 odenkkk

这项工作的目的是学习具有随机和平均场效应并且依赖于物理参数的物理系统的总体动力学模型。学习到的模型可以充当经典数值模型的替代品,以有效地预测物理参数上的系统行为。基于最佳运输和动作匹配的 Benamou-Brenier 公式,我们使用变分问题来推断代表种群动态近似值的参数和时间相关梯度场 ...

0 0 0 0 2024/12/06 arXiv:2410.12000v2 odenkkk

本教程研究统计力学和学习理论的融合,通过整合物理学的基本原理阐明机器学习方法的潜在增强。本教程深入研究了机器学习中使用的熵、自由能和变分推理等先进技术,说明了它们对模型效率和鲁棒性的重大贡献。通过连接这些科学学科,我们渴望激发更新的研究方法,展示对物理系统行为的深入理解如何能够产生更有效和可靠的机器学习模型,特别是在不确定性的背景下 ...

0 0 0 0 2024/11/28 arXiv:2411.15945v1 odenkkk

随着模型大小的不断增长,基于 Transformer 的大型语言模型 (LLM) 取得了显着的成功,但由于计算和内存需求巨大,其部署仍然具有挑战性。量化已成为一种有前途的解决方案,最先进的 LLM 量化算法引入了混合精度矩阵乘法 (mpGEMM) 的需求,其中较低精度的权重与较高精度的激活相乘。尽管有其优点,但当前的硬件加速器(例如 GPU 和 TPU)缺乏对高效 mpGEMM 的本机支持,导致主顺序循环中的反量化操作效率低下 ...

0 0 0 0 2024/11/27 arXiv:2411.16158v1 odenkkk

当前的自动化系统具有关键的局限性,在人工智能达到类人水平并带来新的技术革命之前,需要解决这些局限性。除此之外,我们的社会仍然缺乏 5 级自动驾驶汽车、家用机器人和虚拟助手,这些助手可以学习可靠的世界模型、推理和规划复杂的动作序列。在这些笔记中,我们总结了 Yann LeCun 提出的未来自主智能架构背后的主要思想 ...

0 0 0 0 2024/11/27 arXiv:2306.02572v1 odenkkk

物理神经网络 (PNN) 是一类类神经网络,它利用物理系统的属性来执行计算。虽然 PNN 到目前为止是一个小规模的实验室演示的小众研究领域,但它们可以说是现代人工智能中最被低估的重要机会之一。我们能否训练比当前模型大 1000 倍的 AI 模型?我们能否做到这一点,并让他们在智能手机或传感器等边缘设备上本地私下执行推理?过去几年的研究表明,所有这些问题的答案很可能是“是的,只要有足够的研究”:PNN 有一天可能会从根本上改变人工智能系统的可能性和实用性 ...

0 0 0 0 2024/11/27 arXiv:2406.03372v1 odenkkk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)