我们常常希望将表征知识从一个神经网络转移到另一个神经网络。示例包括将大型网络提炼为较小的网络、将知识从一种感觉模态转移到第二种感觉模态、或者将模型集合集成到单个估计器中。知识蒸馏是解决这些问题的标准方法,它可以最大限度地减少教师和学生网络的概率输出之间的 KL 散度 ...
我们提交了 BabyLM 挑战赛的参赛作品,其目标是提高语言模型的样本效率。我们在发育合理的 10M 字 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成,然后将其提炼成一个小型的 58M 参数 LLaMA 模型,该模型的性能超过了其老师和老师未经蒸馏训练的类似模型。这表明,当教师模型在足够小的数据集上进行训练时,蒸馏不仅可以保留教师模型的全部性能,而且还可以保留教师模型的全部性能。它可以超越它,并导致比直接训练显着更好的性能 ...