大型语言模型(LLM)改变了自然语言处理,但它们的内部机制在很大程度上仍然不透明。最近,机械性解释性引起了研究界的极大关注,以此作为了解LLM的内部运作的一种手段。在各种机械性解释性方法中,稀疏的自动编码器(SAE)已成为一种有前途的方法,因为它们能够将LLM中的复杂,叠加功能置于更容易解释的组件中 ...
稀疏的自动编码器(SAE)已成为解释大型语言模型(LLMS)学到的功能的强大工具。它旨在通过稀疏激活的神经网络通过特征重建来将复杂的超义务特征恢复为可解释的单义大镜。尽管SAE的应用广泛,但在哪个条件下,SAE可以从超级宽容的多义官中完全恢复地面真相特征,但仍不清楚 ...
因果抽象为机械解释性提供了理论基础,该领域与提供可理解的算法有关,这些算法是对黑匣子AI模型的已知但不透明的低级细节的忠实简化。我们的贡献是(1)从机制替代的因果抽象理论(即 ...
通过相当大的努力和直觉,最近的几部作品具有 Transformer 模型的反向设计的非平凡行为。本文将其遵循的机械性可解释性过程系统化。首先,研究人员选择一个引起所需模型行为的度量标准和数据集 ...
最近的工作表明,语言模型(LMS)具有强大的多步(即程序性)推理功能 ...
基于 Transformer 的大型语言模型(LLM)是自然语言任务的最先进。最近的工作试图通过逆向线性层的作用来解码,LLMS对文本完成任务的最终预测的内部机制。然而,人们对注意力头在产生最终 Token 预测中的特定作用知之甚少 ...
图形张量表示法是一种源自物理学的张量线性操作的简单方法。现代深度学习几乎完全由张量之间或之间的操作组成,因此很容易理解张量操作对于理解这些系统非常重要。当试图逆转工程时,神经网络学到的算法以理解其行为:一种称为机械解释性的领域,尤其如此 ...
了解AI系统的内部工作对于确保价值一致性和安全性至关重要。这篇评论探讨了机械性的解释性:逆向工程神经网络学到的计算机制和表示形式为人为理解的算法和概念,以提供详尽的因果理解。我们建立了基础概念,例如在神经激活中编码知识的特征以及有关其表示和计算的假设 ...
最近的研究表明,大型语言模型(LLMS)可以评估相关性和支持信息检索(IR)任务,例如文档排名和相关性判断的生成。但是,现成的LLM理解和操作相关性的内部机制在很大程度上尚未探索。在本文中,我们系统地研究了不同的LLM模块如何通过机械解释性的角度来促进相关判断 ...
我们怎么知道新的机械可解释性方法是否实现了真正的改进?为了追求持久的评估标准,我们建议MIB(一种机械性的可解释性基准),其中两条轨道涵盖了四个任务和五个模型。 MIB偏爱精确,简洁地恢复相关的因果途径或因果变量的方法。电路定位轨道比较定位模型组件的方法以及它们之间的连接 - 对于执行任务最重要(e ...