基本信息 - Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

arxiv Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

阅读

Star 1

名称: Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

首页: https://yiyibooks.cn/arxiv/2305.02301v2/index.html

原始地址: https://arxiv.org/pdf/2305.02301.pdf

描述

部署大型语言模型 (LLM) 具有挑战性，因为它们对于实际应用而言内存效率低且计算密集型。作为回应，研究人员通过使用人类标签进行微调或使用 LLM 生成的标签进行提炼来训练较小的特定于任务的模型。然而，微调和蒸馏需要大量的训练数据才能达到与 LLM 相当的性能 ...