parsifalster的文档

Reasoning Beyond Language: A Comprehensive Survey on Latent Chain-of-Thought Reasoning

大型语言模型（LLMS）在具有思想链（COT）提示的复杂推理任务上取得了令人印象深刻的表现。但是，传统的COT依赖于以自然语言明确口头的推理步骤，引入效率低下并限制其对抽象推理的适用性。为了解决这一问题，对潜在的COT推理的研究兴趣越来越大，在潜在空间内发生推理 ...

0 0 0 0 2025/07/16 arXiv:2505.16782v1 parsifalster

Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety

用人类语言“思考”的AI系统为人工智能安全提供了独特的机会：我们可以监视他们的思想链（COT），以实现行为不良的意图。像所有其他已知的AI监督方法一样，COT监控是不完美的，并且使某些行为不忽视。然而，它显示出希望，我们建议进一步研究COT可监视性和在COT监控的投资以及现有安全方法 ...

0 0 0 0 2025/07/16 arXiv:2507.11473v1 parsifalster

Memory Augmented Large Language Models are Computationally Universal

我们表明，当用外部内存增强时，基于 Transformer 的大语言模型在计算上是通用的。任何确定性的语言模型，在界面长度的字符串上等同于有限的自动机，因此在计算上有限。但是，使用读写记忆增强此类模型会产生任意处理大型输入并可能模拟任何算法的可能性 ...

0 0 0 0 2025/07/15 arXiv:2301.04589v1 parsifalster

Mechanistic?

“机械解释性”一词的兴起伴随着对理解神经模型（尤其是语言模型）的兴趣越来越多。但是，这种行话也导致了很多混乱。那么，“机械”意味着什么？我们描述了该术语在可解释性研究中的四种用途 ...

0 0 0 0 2025/07/13 arXiv:2410.09087v1 parsifalster

Neuroplasticity and Corruption in Model Mechanisms: A Case Study Of Indirect Object Identification

先前的研究表明，有关一般任务的微调语言模型可以增强其潜在机制。但是，微调对中毒数据的影响以及这些机制的结果变化知之甚少。这项研究调查了在有毒微调过程中模型机制的变化，并确定了主要的腐败机制 ...

0 0 0 0 2025/07/13 arXiv:2503.01896v1 parsifalster

Rethinking Circuit Completeness in Language Models: AND, OR, and ADDER Gates

电路发现已逐渐成为机械解释性的重要方法之一，并且对电路完整性的研究也引起了人们的关注。不保证完整性的电路发现方法不仅会导致不固定在不同运行中的电路，还会导致关键机制被省略。不完整的性质来自电路中的存在或门的存在，通常仅在标准电路发现方法中部分检测到 ...

0 0 0 0 2025/07/13 arXiv:2505.10039v1 parsifalster

Are formal and functional linguistic mechanisms dissociated in language models?

尽管大型语言模型（LLM）的能力越来越多，但这些功能分布不均：它们在形式上的语言任务中表现出色，例如产生流利的语法文本，但在推理和始终如一的事实检索等功能性语言任务中挣扎。受神经科学的启发，最近的工作表明，要完成正式和功能性语言任务，LLMS应为每种任务使用不同的机制。这种本地化可以通过培训自发内置或自发出现。在本文中，我们问：具有快速改善的功能性语言能力的当前模型是否表现出正式和功能性语言机制的独特定位？我们通过查找和比较负责各种正式和功能任务的“电路”或最小计算子图来回答这一点 ...

0 0 0 0 2025/07/13 arXiv:2503.11302v3 parsifalster

Optimal ablation for interpretability

可解释性研究通常涉及通过机器学习模型追踪信息流，以确定对感兴趣的任务执行相关计算的特定模型组件。先前的工作通过测量对该组件进行消融的影响或使用禁用组件模拟模型推断来量化模型组件对特定任务的重要性。我们提出了一种新方法，最佳消融（OA），并表明基于OA的组件重要性比通过其他消融方法衡量重要性具有理论和经验优势 ...

0 0 0 0 2025/07/13 arXiv:2409.09951v1 parsifalster

A Practical Review of Mechanistic Interpretability for Transformer-Based Language Models

机械解释性（MI）是一种新兴的解释性子场，试图通过反向工程进行内部计算来理解神经网络模型。最近，MI对解释基于 Transformer 的语言模型（LMS）引起了极大的关注，从而产生了许多新颖的见解，但引入了新的挑战。但是，尚未进行全面审查这些见解和挑战的工作，尤其是作为该领域新移民的指南 ...

0 0 0 0 2025/07/13 arXiv:2407.02646v3 parsifalster

Predicting the large-scale evolution of tag systems

我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段，其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性，包括生长速率和弦密度 ...

0 0 0 0 2025/07/13 arXiv:1601.02014v2 parsifalster