parsifalster的文档

Large Language Models as Computable Approximations to Solomonoff Induction

大型语言模型（LLMS）的快速发展需要一个严格的理论框架来解释其经验成功。尽管在理解LLM行为方面取得了重大进展，但现有的理论框架在通过统一的数学镜头来解释新兴现象方面仍然存在分散。我们通过证明两个基本结果来建立LLM体系结构与算法信息理论（AIT）之间的第一个正式联系：（1）训练过程计算在计算上通过解释为程序长度优化的损失最小化和（2）下一个token token预测近似于Solomonoff诱导 ...

0 0 0 0 2025/07/12 arXiv:2505.15784v1 parsifalster

A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of Large Language Models

大型语言模型（LLM）改变了自然语言处理，但它们的内部机制在很大程度上仍然不透明。最近，机械性解释性引起了研究界的极大关注，以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中，稀疏的自动编码器（SAE）已成为一种有前途的方法，因为它们能够将LLM中的复杂，叠加功能置于更容易解释的组件中 ...

0 0 0 0 2025/07/10 arXiv:2503.05613v2 parsifalster

On the Theoretical Understanding of Identifiable Sparse Autoencoders and Beyond

稀疏的自动编码器（SAE）已成为解释大型语言模型（LLMS）学到的功能的强大工具。它旨在通过稀疏激活的神经网络通过特征重建来将复杂的超义务特征恢复为可解释的单义大镜。尽管SAE的应用广泛，但在哪个条件下，SAE可以从超级宽容的多义官中完全恢复地面真相特征，但仍不清楚 ...

0 0 0 0 2025/07/08 arXiv:2506.15963v1 parsifalster

Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability

因果抽象为机械解释性提供了理论基础，该领域与提供可理解的算法有关，这些算法是对黑匣子AI模型的已知但不透明的低级细节的忠实简化。我们的贡献是（1）从机制替代的因果抽象理论（即 ...

0 0 0 0 2025/07/08 arXiv:2301.04709v4 parsifalster

Towards Automated Circuit Discovery for Mechanistic Interpretability

通过相当大的努力和直觉，最近的几部作品具有 Transformer 模型的反向设计的非平凡行为。本文将其遵循的机械性可解释性过程系统化。首先，研究人员选择一个引起所需模型行为的度量标准和数据集 ...

0 0 0 0 2025/07/08 arXiv:2304.14997v4 parsifalster

Towards a Mechanistic Interpretation of Multi-Step Reasoning Capabilities of Language Models

最近的工作表明，语言模型（LMS）具有强大的多步（即程序性）推理功能 ...

0 0 0 0 2025/07/08 arXiv:2310.14491v1 parsifalster

Attention Lens: A Tool for Mechanistically Interpreting the Attention Head Information Retrieval Mechanism

基于 Transformer 的大型语言模型（LLM）是自然语言任务的最先进。最近的工作试图通过逆向线性层的作用来解码，LLMS对文本完成任务的最终预测的内部机制。然而，人们对注意力头在产生最终 Token 预测中的特定作用知之甚少 ...

0 0 0 0 2025/07/08 arXiv:2310.16270v1 parsifalster

An introduction to graphical tensor notation for mechanistic interpretability

图形张量表示法是一种源自物理学的张量线性操作的简单方法。现代深度学习几乎完全由张量之间或之间的操作组成，因此很容易理解张量操作对于理解这些系统非常重要。当试图逆转工程时，神经网络学到的算法以理解其行为：一种称为机械解释性的领域，尤其如此 ...

0 0 0 0 2025/07/08 arXiv:2402.01790v1 parsifalster

Mechanistic Interpretability for AI Safety -- A Review

了解AI系统的内部工作对于确保价值一致性和安全性至关重要。这篇评论探讨了机械性的解释性：逆向工程神经网络学到的计算机制和表示形式为人为理解的算法和概念，以提供详尽的因果理解。我们建立了基础概念，例如在神经激活中编码知识的特征以及有关其表示和计算的假设 ...

0 0 0 0 2025/07/08 arXiv:2404.14082v3 parsifalster

How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective

最近的研究表明，大型语言模型（LLMS）可以评估相关性和支持信息检索（IR）任务，例如文档排名和相关性判断的生成。但是，现成的LLM理解和操作相关性的内部机制在很大程度上尚未探索。在本文中，我们系统地研究了不同的LLM模块如何通过机械解释性的角度来促进相关判断 ...

0 0 0 0 2025/07/08 arXiv:2504.07898v1 parsifalster