- 名称
- Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes
- 描述
部署大型语言模型 (LLM) 具有挑战性,因为它们对于实际应用而言内存效率低且计算密集型。作为回应,研究人员通过使用人类标签进行微调或使用 LLM 生成的标签进行提炼来训练较小的特定于任务的模型。然而,微调和蒸馏需要大量的训练数据才能达到与 LLM 相当的性能 ...