- 名称
- Understanding Emergent Abilities of Language Models from the Loss Perspective
- 描述
最近的研究对语言模型中的涌现能力是大型模型所独有的信念提出了质疑。这种怀疑源于两个观察结果:1)较小的模型也可以在新兴能力上表现出高性能;2)对用于衡量这些能力的不连续指标存在疑问。在本文中,我们建议研究预训练损失镜头中的涌现能力,而不是模型大小或训练计算 ...
最近的研究对语言模型中的涌现能力是大型模型所独有的信念提出了质疑。这种怀疑源于两个观察结果:1)较小的模型也可以在新兴能力上表现出高性能;2)对用于衡量这些能力的不连续指标存在疑问。在本文中,我们建议研究预训练损失镜头中的涌现能力,而不是模型大小或训练计算 ...