从损失的角度理解语言模型的涌现能力

Zhengxiao Du

{}^{1,2}

, Aohan Zeng

{}^{1,2}

, Yuxiao Dong

{}^{2}

, Jie Tang

{}^{2}

{}^{1}

Zhipu AI

{}^{2}

Tsinghua University
{zx-du20,zah22}@mails.tsinghua.edu.cn

摘要

最近的研究对语言模型中的涌现能力[Emergent:WeiTBRZBYBZMCHVLDF22]是大型模型所独有的信念提出了质疑。这种怀疑源于两个观察结果：1）较小的模型也可以在新兴能力上表现出高性能；2）对用于衡量这些能力的不连续指标存在疑问。在本文中，我们建议从预训练损失的角度研究紧急训练能力，而不是模型大小或计算。我们证明，具有相同预训练损失但不同模型和数据大小的模型在各种下游任务上产生相同的性能。我们还发现，当模型的预训练损失低于特定阈值时，无论指标的连续性如何，模型都会在某些任务上表现出新兴能力。在达到这个阈值之前，其性能仍停留在随机猜测的水平。这激励我们重新定义涌现能力，即那些在预训练损失较低的模型中表现出来的能力，强调这些能力不能仅仅通过推断具有较高预训练损失的模型的性能趋势来预测。