AdamHua的文档

AdamHua

个性签名 ...

Contrastive Representation Distillation

我们常常希望将表征知识从一个神经网络转移到另一个神经网络。示例包括将大型网络提炼为较小的网络、将知识从一种感觉模态转移到第二种感觉模态、或者将模型集合集成到单个估计器中。知识蒸馏是解决这些问题的标准方法，它可以最大限度地减少教师和学生网络的概率输出之间的 KL 散度 ...

0 0 0 0 2025/01/11 arXiv:1910.10699v3 AdamHua

Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

我们提交了 BabyLM 挑战赛的参赛作品，其目标是提高语言模型的样本效率。我们在发育合理的 10M 字 BabyLM 数据集上训练了一个由 GPT-2 和小型 LLaMA 模型组成的集成，然后将其提炼成一个小型的 58M 参数 LLaMA 模型，该模型的性能超过了其老师和老师未经蒸馏训练的类似模型。这表明，当教师模型在足够小的数据集上进行训练时，蒸馏不仅可以保留教师模型的全部性能，而且还可以保留教师模型的全部性能。它可以超越它，并导致比直接训练显着更好的性能 ...

0 0 0 0 2024/11/05 arXiv:2308.02019v2 AdamHua

Contrastive Representation Distillation

Baby Llama: knowledge distillation from an ensemble of teachers trained on a small dataset with no performance penalty

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）