“机械解释性”一词的兴起伴随着对理解神经模型(尤其是语言模型)的兴趣越来越多。但是,这种行话也导致了很多混乱。那么,“机械”意味着什么?我们描述了该术语在可解释性研究中的四种用途 ...
先前的研究表明,有关一般任务的微调语言模型可以增强其潜在机制。但是,微调对中毒数据的影响以及这些机制的结果变化知之甚少。这项研究调查了在有毒微调过程中模型机制的变化,并确定了主要的腐败机制 ...
电路发现已逐渐成为机械解释性的重要方法之一,并且对电路完整性的研究也引起了人们的关注。不保证完整性的电路发现方法不仅会导致不固定在不同运行中的电路,还会导致关键机制被省略。不完整的性质来自电路中的存在或门的存在,通常仅在标准电路发现方法中部分检测到 ...
尽管大型语言模型(LLM)的能力越来越多,但这些功能分布不均:它们在形式上的语言任务中表现出色,例如产生流利的语法文本,但在推理和始终如一的事实检索等功能性语言任务中挣扎。受神经科学的启发,最近的工作表明,要完成正式和功能性语言任务,LLMS应为每种任务使用不同的机制。这种本地化可以通过培训自发内置或自发出现。在本文中,我们问:具有快速改善的功能性语言能力的当前模型是否表现出正式和功能性语言机制的独特定位?我们通过查找和比较负责各种正式和功能任务的“电路”或最小计算子图来回答这一点 ...
可解释性研究通常涉及通过机器学习模型追踪信息流,以确定对感兴趣的任务执行相关计算的特定模型组件。先前的工作通过测量对该组件进行消融的影响或使用禁用组件模拟模型推断来量化模型组件对特定任务的重要性。我们提出了一种新方法,最佳消融(OA),并表明基于OA的组件重要性比通过其他消融方法衡量重要性具有理论和经验优势 ...
机械解释性(MI)是一种新兴的解释性子场,试图通过反向工程进行内部计算来理解神经网络模型。最近,MI对解释基于 Transformer 的语言模型(LMS)引起了极大的关注,从而产生了许多新颖的见解,但引入了新的挑战。但是,尚未进行全面审查这些见解和挑战的工作,尤其是作为该领域新移民的指南 ...
我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段,其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性,包括生长速率和弦密度 ...
大型语言模型(LLMS)的快速发展需要一个严格的理论框架来解释其经验成功。尽管在理解LLM行为方面取得了重大进展,但现有的理论框架在通过统一的数学镜头来解释新兴现象方面仍然存在分散。我们通过证明两个基本结果来建立LLM体系结构与算法信息理论(AIT)之间的第一个正式联系:(1)训练过程计算在计算上通过解释为程序长度优化的损失最小化和(2)下一个token token预测近似于Solomonoff诱导 ...
大型语言模型(LLM)改变了自然语言处理,但它们的内部机制在很大程度上仍然不透明。最近,机械性解释性引起了研究界的极大关注,以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中,稀疏的自动编码器(SAE)已成为一种有前途的方法,因为它们能够将LLM中的复杂,叠加功能置于更容易解释的组件中 ...
稀疏的自动编码器(SAE)已成为解释大型语言模型(LLMS)学到的功能的强大工具。它旨在通过稀疏激活的神经网络通过特征重建来将复杂的超义务特征恢复为可解释的单义大镜。尽管SAE的应用广泛,但在哪个条件下,SAE可以从超级宽容的多义官中完全恢复地面真相特征,但仍不清楚 ...