最近的研究表明,大型语言模型(LLMS)可以评估相关性和支持信息检索(IR)任务,例如文档排名和相关性判断的生成。但是,现成的LLM理解和操作相关性的内部机制在很大程度上尚未探索。在本文中,我们系统地研究了不同的LLM模块如何通过机械解释性的角度来促进相关判断 ...
我们怎么知道新的机械可解释性方法是否实现了真正的改进?为了追求持久的评估标准,我们建议MIB(一种机械性的可解释性基准),其中两条轨道涵盖了四个任务和五个模型。 MIB偏爱精确,简洁地恢复相关的因果途径或因果变量的方法。电路定位轨道比较定位模型组件的方法以及它们之间的连接 - 对于执行任务最重要(e ...
机械解释性(MI)旨在通过因果解释来理解神经网络。尽管MI有许多解释的生成方法,但由于缺乏评估解释的普遍方法,进步受到了限制。在这里,我们分析了基本问题:“什么是一个很好的解释?”我们介绍了一个多元化的解释性美德框架,借鉴了科学哲学的四个观点 - 贝叶斯,库恩尼亚人,德意志和法制 - 以系统地评估和改善MI中的解释 ...
机械性解释性旨在通过因果解释来理解神经网络。我们主张解释性观点假设:机械性解释性研究是一种理解模型的原则方法,因为神经网络包含可以提取和理解的隐式解释。因此,我们表明了解释性的忠诚,评估了解释对模型的合适程度 ...
我们提出了扩散模型的定量电路级分析,建立了图像生成过程的基础计算途径和机械原理。通过在2,000个合成和2,000个Celeba面部图像的系统干预实验中,我们发现了扩散架构过程合成与自然主义数据分布的基本算法差异。我们的研究表明,现实世界的面部处理需要具有较高计算复杂性的电路(复杂性比= 1 ...
为发现预训练的语言模型中编码的知识所做的工作依赖于注释的语料库或人类的方法。但是,这些方法在可伸缩性和解释范围方面受到限制。我们建议使用大型语言模型Chatgpt作为注释者,以实现对预训练的语言模型的细粒度解释分析 ...
基本的物理学通常会以很少的指导示例或既定原则面对复杂的象征问题。尽管人工智能(AI)提供了希望,但它典型的需求需要大量数据集从阻碍其在这些信息筛查前沿使用中学习。我们在批判性学习(LAC)中引入学习(RL)方案(RL)方案,该方案将大型语言模型(LLMS)调整为急剧的学习过渡,从而解决了这种信息稀缺性 ...
Transformer 及其变体已被证明是许多不同领域中有效的序列学习者。尽管取得了惊人的成功,但一个关键的问题是必须接受培训的大量参数(从$ 10^7 $到$ 10^{11} $)以及点型产品的二次复杂性。在这项工作中,我们研究了近似 Transformer 的两个中心组成部分的问题 - 多头自我注意力和朝向前进的转化,参数空间和计算复杂性降低 ...
我们基于深度学习的动力学系统方法,从近似角度来看,深层残留网络被理想地将其视为连续的时间动力系统。特别是,我们使用连续的时间深度残留网络建立了通用近似的一般条件,也可以使用动力学系统的流图中理解为$ l^p $中的近似理论。在特定情况下,还建立了近似值的近似值 ...
在本文中,我们旨在通过在Resnet和Feynman Path的整体之间提供桥梁来了解剩余网络(RESNET)。特别是,我们证明残留块的效果等效于部分微分方程,并且可以将重新转换过程等效地转换为Feynman路径积分。这些结论极大地帮助我们在数学上了解Resnet在解决梯度消失问题时的优势 ...