从\ textIt {原位观察值(例如无线电图和海洋声速场)重建物理场张量,对于在各种应用中启用环境意识的决策至关重要,例如,无线通信和水下声学 ...
长期以来,机理设计一直是经济理论的基石,传统方法依赖数学推导。最近,出现了自动化方法,包括具有神经网络的可微分经济学,用于设计付款和分配。尽管分析方法和自动化方法都已经提高了该领域,但它们每个都面临着重要的弱点:数学推导不是自动化的,并且经常难以扩展到复杂的问题,而自动化,尤其是基于神经网络的方法的方法有限 ...
Transformer 模型已经彻底改变了从自然语言处理到计算机视觉的领域,但是它们的内部计算动力学仍然了解到引起了人们对可预测性和鲁棒性的关注。在这项工作中,我们介绍了熵镜,这是一个可扩展的模型不合SNOSTIC框架,利用信息理论来解释冷冻的,现成的大规模 Transformer 。通过量化中间残差流中香农熵的演变,我们的方法提取了区分模型家族,对特定于任务的提示进行分类并与输出精度相关的计算标志 ...
我们提出了一个称为“信息重力”的理论模型,以描述大语言模型(LLMS)中的文本生成过程。该模型使用现场理论和时空几何形状的物理设备来形式化用户查询之间的相互作用和生成的 Token 的概率分布。查询被视为具有“信息质量”的对象,该对象曲线曲线的语义空间,从而创建了在代生成过程中“吸引” Token 的重力潜在井 ...
Transformer LMS显示出紧急的推理,可以抵抗机械理解。我们为连续的经过思考推理动态提供统计物理框架。我们将句子级的隐藏状态轨迹建模为较低维歧管上的随机动力学系统 ...
在过去的十年中,深度学习理论中的开花研究试图回答:“为什么深度学习会推广?”透视图的有力转变促成了这一进步:插值制度中对过份术模型的研究。在本文中,我们认为要进行另一种观点转变,因为LLM的某些理想特质不是良好统计概括的结果,并且需要单独的理论解释。我们的核心论点依赖于AR概率模型固有地识别的观察结果:零或接近零kl差异的模型分开 - 因此,等效的测试损失 - 可以表现出明显不同的行为 ...
本文旨在为希望获得更深入了解机器学习算法的物理科学家,我们通过他们最了解的域,物理学来提出。我们首先对两种基于能量的机器学习算法,Hopfield Networks和Boltzmann机器以及它们与Ising模型的连接进行回顾。这是了解更普遍的学习现象的基础 ...
基本热力学结合是针对深神经网络(DNN)推断的能源成本得出的。通过应用Landauer的原则,我们证明了DNN中的线性操作原则上可以可逆地执行,而非线性激活函数则构成了不可避免的能源成本。推理能量上产生的理论下限由每种推理的状态转变的平均神经元数确定 ...
我们研究了完全连接的前馈神经网络的简单模型的高度非凸损失函数与球形旋转玻璃模型的哈密顿式模型的简单模型之间的联系:i)i)可变独立性,ii)网络参数化的冗余性,以及iii)均匀性。这些假设使我们能够通过随机矩阵理论的结果来解释完全脱钩的神经网络的复杂性。我们表明,对于大尺寸的脱钩网络,随机损耗函数的最低临界值形成了分层结构,它们位于由全局最小值的较低定义的频段中 ...
在类别理论中,众所周知,弦图的使用是有助于对某些概念的直观理解,尤其是在处理辅助类别和单体类别时。我们表明,字符串图在探索类别理论中基本概念的基本属性(例如通用属性,(CO)限制,KAN扩展和(CO)末端的基本属性中也很有用。例如,弦图被用来表示Yoneda引理的视觉直观证明,作为辅助的必要条件,右伴随保留限制(RAPL),以及具有点式KAN扩展的必要条件 ...