我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段,其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性,包括生长速率和弦密度 ...
大型语言模型(LLMS)的快速发展需要一个严格的理论框架来解释其经验成功。尽管在理解LLM行为方面取得了重大进展,但现有的理论框架在通过统一的数学镜头来解释新兴现象方面仍然存在分散。我们通过证明两个基本结果来建立LLM体系结构与算法信息理论(AIT)之间的第一个正式联系:(1)训练过程计算在计算上通过解释为程序长度优化的损失最小化和(2)下一个token token预测近似于Solomonoff诱导 ...
大型语言模型(LLM)改变了自然语言处理,但它们的内部机制在很大程度上仍然不透明。最近,机械性解释性引起了研究界的极大关注,以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中,稀疏的自动编码器(SAE)已成为一种有前途的方法,因为它们能够将LLM中的复杂,叠加功能置于更容易解释的组件中 ...
稀疏的自动编码器(SAE)已成为解释大型语言模型(LLMS)学到的功能的强大工具。它旨在通过稀疏激活的神经网络通过特征重建来将复杂的超义务特征恢复为可解释的单义大镜。尽管SAE的应用广泛,但在哪个条件下,SAE可以从超级宽容的多义官中完全恢复地面真相特征,但仍不清楚 ...
因果抽象为机械解释性提供了理论基础,该领域与提供可理解的算法有关,这些算法是对黑匣子AI模型的已知但不透明的低级细节的忠实简化。我们的贡献是(1)从机制替代的因果抽象理论(即 ...
通过相当大的努力和直觉,最近的几部作品具有 Transformer 模型的反向设计的非平凡行为。本文将其遵循的机械性可解释性过程系统化。首先,研究人员选择一个引起所需模型行为的度量标准和数据集 ...
最近的工作表明,语言模型(LMS)具有强大的多步(即程序性)推理功能 ...
基于 Transformer 的大型语言模型(LLM)是自然语言任务的最先进。最近的工作试图通过逆向线性层的作用来解码,LLMS对文本完成任务的最终预测的内部机制。然而,人们对注意力头在产生最终 Token 预测中的特定作用知之甚少 ...
图形张量表示法是一种源自物理学的张量线性操作的简单方法。现代深度学习几乎完全由张量之间或之间的操作组成,因此很容易理解张量操作对于理解这些系统非常重要。当试图逆转工程时,神经网络学到的算法以理解其行为:一种称为机械解释性的领域,尤其如此 ...
了解AI系统的内部工作对于确保价值一致性和安全性至关重要。这篇评论探讨了机械性的解释性:逆向工程神经网络学到的计算机制和表示形式为人为理解的算法和概念,以提供详尽的因果理解。我们建立了基础概念,例如在神经激活中编码知识的特征以及有关其表示和计算的假设 ...