因果抽象为机械解释性提供了理论基础,该领域与提供可理解的算法有关,这些算法是对黑匣子AI模型的已知但不透明的低级细节的忠实简化。我们的贡献是(1)从机制替代的因果抽象理论(即 ...
通过相当大的努力和直觉,最近的几部作品具有 Transformer 模型的反向设计的非平凡行为。本文将其遵循的机械性可解释性过程系统化。首先,研究人员选择一个引起所需模型行为的度量标准和数据集 ...
最近的工作表明,语言模型(LMS)具有强大的多步(即程序性)推理功能 ...
潜在扩散模型已成为生成高质量图像和视频的领先方法,利用压缩潜在表示减轻了扩散过程的计算负担。尽管最近的进步主要集中在扩散骨架和提高自动编码器重建质量上,但这些组件之间的相互作用受到相对较少的关注。在这项工作中,我们对现代自动编码器进行频谱分析,并在其潜在空间中识别出非频率的组件,这些高频组件在具有较大瓶颈通道大小的自动编码器中尤为明显 ...
基于 Transformer 的大型语言模型(LLM)是自然语言任务的最先进。最近的工作试图通过逆向线性层的作用来解码,LLMS对文本完成任务的最终预测的内部机制。然而,人们对注意力头在产生最终 Token 预测中的特定作用知之甚少 ...
图形张量表示法是一种源自物理学的张量线性操作的简单方法。现代深度学习几乎完全由张量之间或之间的操作组成,因此很容易理解张量操作对于理解这些系统非常重要。当试图逆转工程时,神经网络学到的算法以理解其行为:一种称为机械解释性的领域,尤其如此 ...
了解AI系统的内部工作对于确保价值一致性和安全性至关重要。这篇评论探讨了机械性的解释性:逆向工程神经网络学到的计算机制和表示形式为人为理解的算法和概念,以提供详尽的因果理解。我们建立了基础概念,例如在神经激活中编码知识的特征以及有关其表示和计算的假设 ...
最近的研究表明,大型语言模型(LLMS)可以评估相关性和支持信息检索(IR)任务,例如文档排名和相关性判断的生成。但是,现成的LLM理解和操作相关性的内部机制在很大程度上尚未探索。在本文中,我们系统地研究了不同的LLM模块如何通过机械解释性的角度来促进相关判断 ...
我们怎么知道新的机械可解释性方法是否实现了真正的改进?为了追求持久的评估标准,我们建议MIB(一种机械性的可解释性基准),其中两条轨道涵盖了四个任务和五个模型。 MIB偏爱精确,简洁地恢复相关的因果途径或因果变量的方法。电路定位轨道比较定位模型组件的方法以及它们之间的连接 - 对于执行任务最重要(e ...
机械解释性(MI)旨在通过因果解释来理解神经网络。尽管MI有许多解释的生成方法,但由于缺乏评估解释的普遍方法,进步受到了限制。在这里,我们分析了基本问题:“什么是一个很好的解释?”我们介绍了一个多元化的解释性美德框架,借鉴了科学哲学的四个观点 - 贝叶斯,库恩尼亚人,德意志和法制 - 以系统地评估和改善MI中的解释 ...