缩放定律描述了语言模型的大小与其能力之间的关系。与之前通过损失或基准评估模型能力的研究不同,我们估计模型存储的知识位数。我们关注以元组表示的事实知识,例如(美国、首都、华盛顿 D. ...

0 0 0 0 2024/12/08 arXiv:2404.05405v1 parsifalster

在本文中,我们采用了破碎复制插值技术(由 Francesco Guerra 开发,用于处理 Sherrington-Kirkpatrick 模型,即成对平均场自旋玻璃,其耦合为独立同分布) ...

0 0 0 0 2024/12/07 arXiv:2006.00256v1 parsifalster

Transformer 广泛用于从输入标记中提取语义,但它们通常作为黑盒模型运行。在本文中,我们提出了一种简单但信息丰富的分解方法,将经过训练的 Transformer 的隐藏状态(或嵌入)分解为可解释的组件。对于任何层,输入序列样本的嵌入向量由张量 $\boldsymbol{h} \in \mathbb{R}^{C \times T \times d}$ 表示 ...

0 0 0 0 2024/12/07 arXiv:2310.04861v2 parsifalster

深度学习在许多现实世界任务中的成功引发了人们对理解深度学习在复杂任务的训练和泛化方面的力量和局限性的巨大努力,但迄今为止进展有限。在这项工作中,我们研究深度线性神经网络(DLNN)中学习的统计机制,其中单个单元的输入输出函数是线性的。尽管单元是线性的,但 DLNN 中的学习是非线性的,因此研究其属性揭示了非线性深度神经网络 (DNN) 的一些特征 ...

0 0 0 0 2024/12/07 arXiv:2012.04030v2 parsifalster

深度神经网络架构通常由重复的结构元素组成。我们引入了一种新方法来揭示这些模式,并且可以广泛应用于深度学习的研究。与电源板如何帮助理清和组织复杂的电缆连接类似,这种方法将神经元视为交互中的附加自由度,从而简化了结构并增强了对深层神经网络内交互的直观理解 ...

0 0 0 0 2024/12/07 arXiv:2410.00396v1 parsifalster

扩散生成模型通过反转逐步向数据样本添加噪声的过程,将噪声转换为数据。受到物理学中重整化组概念的启发,该组分析不同尺度的系统,我们通过探索三个关键设计方面重新审视扩散模型:1)扩散过程运行的表示形式的选择(例如 ...

0 0 0 0 2024/12/07 arXiv:2410.02667v1 parsifalster

我们展示了卷积深度神经网络预测 4x4 Ising 模型最近邻能量的能力。利用其在这项任务中的成功,我们激发了对更大的 8x8 Ising 模型的研究,表明深度神经网络可以在仅看到配置空间的极小部分后学习最近邻 Ising 哈密顿量。此外,我们表明神经网络已经以足够的精度学习了能量和磁化算子来复制低温伊辛相变 ...

0 0 0 0 2024/12/07 arXiv:1706.09779v2 parsifalster

由于配分函数及其导数通常难以处理,因此将概率模型与数据拟合通常很困难。在这里,我们提出了一种新的参数估计技术,不需要计算棘手的归一化因子或从模型的平衡分布中采样。这是通过建立将观测到的数据分布转换为模型分布的动力学,然后将数据分布与运行动力学无限短时间产生的分布之间的 KL 散度最小化作为目标来实现的 ...

0 0 0 0 2024/12/07 arXiv:0906.4779v4 parsifalster

深度学习是一组广泛的技术,它使用多层表示来直接从结构化数据中自动学习相关特征。最近,此类技术在计算机视觉、语音识别和自然语言处理等多种困难的机器学习任务上取得了破纪录的结果。尽管深度学习取得了巨大成功,但从理论上讲,为什么这些技术在特征学习和压缩方面如此成功,人们却知之甚少 ...

0 0 0 0 2024/12/07 arXiv:1410.3831v1 parsifalster

关于深度神经网络(DNN)如何从输入图像中提取特征的理论理解尚不清楚,但人们普遍认为提取是通过粗粒度过程分层执行的。它让我们想起了统计物理学中重整化群(RG)的基本概念。为了探索 DNN 和 RG 之间可能的关系,我们使用应用于伊辛模型的受限玻尔兹曼机(RBM)并构建由 RBM 生成的模型参数(特别是温度)流 ...

0 0 0 0 2024/12/07 arXiv:1801.07172v1 parsifalster

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)