过去50年中的大多数传统人工智能(AI)系统都非常有限,要么是基于启发式方法,要么是两者兼而有之。然而,新的千年在理论上最佳且实际上可行的算法中为预测,搜索,归纳推理基于Occam的剃须刀,解决问题,决策,决策和加强学习在非常普遍类型的环境中学习。由于归纳推断是所有归纳科学的核心,因此某些结果不仅与AI和计算机科学有关,而且与物理学有关,也与基于Zuse的计算机生成宇宙的论点引起的非传统预测有关 ...
大型语言模型(LLMS)在具有思想链(COT)提示的复杂推理任务上取得了令人印象深刻的表现。但是,传统的COT依赖于以自然语言明确口头的推理步骤,引入效率低下并限制其对抽象推理的适用性。为了解决这一问题,对潜在的COT推理的研究兴趣越来越大,在潜在空间内发生推理 ...
用人类语言“思考”的AI系统为人工智能安全提供了独特的机会:我们可以监视他们的思想链(COT),以实现行为不良的意图。像所有其他已知的AI监督方法一样,COT监控是不完美的,并且使某些行为不忽视。然而,它显示出希望,我们建议进一步研究COT可监视性和在COT监控的投资以及现有安全方法 ...
我们表明,当用外部内存增强时,基于 Transformer 的大语言模型在计算上是通用的。任何确定性的语言模型,在界面长度的字符串上等同于有限的自动机,因此在计算上有限。但是,使用读写记忆增强此类模型会产生任意处理大型输入并可能模拟任何算法的可能性 ...
“机械解释性”一词的兴起伴随着对理解神经模型(尤其是语言模型)的兴趣越来越多。但是,这种行话也导致了很多混乱。那么,“机械”意味着什么?我们描述了该术语在可解释性研究中的四种用途 ...
先前的研究表明,有关一般任务的微调语言模型可以增强其潜在机制。但是,微调对中毒数据的影响以及这些机制的结果变化知之甚少。这项研究调查了在有毒微调过程中模型机制的变化,并确定了主要的腐败机制 ...
电路发现已逐渐成为机械解释性的重要方法之一,并且对电路完整性的研究也引起了人们的关注。不保证完整性的电路发现方法不仅会导致不固定在不同运行中的电路,还会导致关键机制被省略。不完整的性质来自电路中的存在或门的存在,通常仅在标准电路发现方法中部分检测到 ...
尽管大型语言模型(LLM)的能力越来越多,但这些功能分布不均:它们在形式上的语言任务中表现出色,例如产生流利的语法文本,但在推理和始终如一的事实检索等功能性语言任务中挣扎。受神经科学的启发,最近的工作表明,要完成正式和功能性语言任务,LLMS应为每种任务使用不同的机制。这种本地化可以通过培训自发内置或自发出现。在本文中,我们问:具有快速改善的功能性语言能力的当前模型是否表现出正式和功能性语言机制的独特定位?我们通过查找和比较负责各种正式和功能任务的“电路”或最小计算子图来回答这一点 ...
可解释性研究通常涉及通过机器学习模型追踪信息流,以确定对感兴趣的任务执行相关计算的特定模型组件。先前的工作通过测量对该组件进行消融的影响或使用禁用组件模拟模型推断来量化模型组件对特定任务的重要性。我们提出了一种新方法,最佳消融(OA),并表明基于OA的组件重要性比通过其他消融方法衡量重要性具有理论和经验优势 ...
机械解释性(MI)是一种新兴的解释性子场,试图通过反向工程进行内部计算来理解神经网络模型。最近,MI对解释基于 Transformer 的语言模型(LMS)引起了极大的关注,从而产生了许多新颖的见解,但引入了新的挑战。但是,尚未进行全面审查这些见解和挑战的工作,尤其是作为该领域新移民的指南 ...