基于 Transformer 的大型语言模型(LLM)是自然语言任务的最先进。最近的工作试图通过逆向线性层的作用来解码,LLMS对文本完成任务的最终预测的内部机制。然而,人们对注意力头在产生最终 Token 预测中的特定作用知之甚少 ...
图形张量表示法是一种源自物理学的张量线性操作的简单方法。现代深度学习几乎完全由张量之间或之间的操作组成,因此很容易理解张量操作对于理解这些系统非常重要。当试图逆转工程时,神经网络学到的算法以理解其行为:一种称为机械解释性的领域,尤其如此 ...
了解AI系统的内部工作对于确保价值一致性和安全性至关重要。这篇评论探讨了机械性的解释性:逆向工程神经网络学到的计算机制和表示形式为人为理解的算法和概念,以提供详尽的因果理解。我们建立了基础概念,例如在神经激活中编码知识的特征以及有关其表示和计算的假设 ...
最近的研究表明,大型语言模型(LLMS)可以评估相关性和支持信息检索(IR)任务,例如文档排名和相关性判断的生成。但是,现成的LLM理解和操作相关性的内部机制在很大程度上尚未探索。在本文中,我们系统地研究了不同的LLM模块如何通过机械解释性的角度来促进相关判断 ...
我们怎么知道新的机械可解释性方法是否实现了真正的改进?为了追求持久的评估标准,我们建议MIB(一种机械性的可解释性基准),其中两条轨道涵盖了四个任务和五个模型。 MIB偏爱精确,简洁地恢复相关的因果途径或因果变量的方法。电路定位轨道比较定位模型组件的方法以及它们之间的连接 - 对于执行任务最重要(e ...
机械解释性(MI)旨在通过因果解释来理解神经网络。尽管MI有许多解释的生成方法,但由于缺乏评估解释的普遍方法,进步受到了限制。在这里,我们分析了基本问题:“什么是一个很好的解释?”我们介绍了一个多元化的解释性美德框架,借鉴了科学哲学的四个观点 - 贝叶斯,库恩尼亚人,德意志和法制 - 以系统地评估和改善MI中的解释 ...
机械性解释性旨在通过因果解释来理解神经网络。我们主张解释性观点假设:机械性解释性研究是一种理解模型的原则方法,因为神经网络包含可以提取和理解的隐式解释。因此,我们表明了解释性的忠诚,评估了解释对模型的合适程度 ...
我们提出了扩散模型的定量电路级分析,建立了图像生成过程的基础计算途径和机械原理。通过在2,000个合成和2,000个Celeba面部图像的系统干预实验中,我们发现了扩散架构过程合成与自然主义数据分布的基本算法差异。我们的研究表明,现实世界的面部处理需要具有较高计算复杂性的电路(复杂性比= 1 ...
考虑到现实世界中信息的复杂性和动态性质,在现实世界情景中,大型多模型(LMM)的强大部署需要访问外部知识来源。现有的方法,例如检索功能的生成(RAG)和迅速设计的搜索剂,依赖于严格的管道,通常导致搜索行为效率低下或过度。我们提出了MMSEarch-R1,这是第一个端到端的增强学习框架,使LMM可以在现实世界中的Internet环境中执行按需进行多转弯搜索 ...
为发现预训练的语言模型中编码的知识所做的工作依赖于注释的语料库或人类的方法。但是,这些方法在可伸缩性和解释范围方面受到限制。我们建议使用大型语言模型Chatgpt作为注释者,以实现对预训练的语言模型的细粒度解释分析 ...