arxiv Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction

/documents/69942/

基本信息

文件基本信息

名称
Autoregressive Language Models are Secretly Energy-Based Models: Insights into the Lookahead Capabilities of Next-Token Prediction
描述
自回归模型 (ARM) 目前构成了大型语言模型 (LLM) 的主导范式。基于能量的模型(EBM)代表了另一类模型,该模型历来在 LLM 开发中不太流行,但自然地表征了培训后调整中的最佳策略。在本文中,我们提供了这两个模型类的统一视图。以概率链式法则为起点,我们在函数空间中建立了 ARM 和 EBM 之间的显式双射,并证明它对应于最大熵强化学习中软贝尔曼方程的特殊情况。基于这种双射,我们推导出 ARM 和 EBM 的监督学习之间的等价性。此外,我们通过提供理论误差范围来分析 EBM 到 ARM 的蒸馏。尽管基于下一个 Token 预测范式,但我们的结果提供了有关 ARM 提前计划能力的见解 ...