/documents/72324/
基本信息
文件基本信息
名称
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
描述
自大型语言模型 (LLM) 首次出现以来,机器学习社区已经取得了令人瞩目的进步。然而,它们的大量内存消耗已成为大规模训练的重大障碍。例如,7B 模型通常需要至少 60 GB 的 GPU 内存来进行全参数训练,这给无法访问高资源环境的研究人员带来了挑战。人们提出了诸如低秩适应(LoRA)之类的参数高效微调技术来缓解这个问题。然而,在大多数大规模微调设置中,它们的性能达不到全参数训练的水平,因为它们将参数搜索限制在低秩子空间中。为了弥补这一缺陷,我们研究了 LoRA 在微调任务上的分层特性,并观察到不同层之间权重规范的意外但一致的偏度。利用这一关键观察结果,发现了一种令人惊讶的简单训练策略,该策略在各种设置中都优于 LoRA 和全参数训练,且内存成本与 LoRA 一样低。我们将其命名为 Layerwise Importance Sampled AdamW (LISA),这是 LoRA 的一个有前途的替代方案,它将重要性采样的思想应用于 LLM 中的不同层,并在优化过程中随机冻结大多数中间层。实验结果表明,在 GPU 内存消耗相似或更少的情况下,LISA 在下游微调任务中超越了 LoRA,甚至完全参数调整,其中 LISA 在 MT-Bench 得分方面始终优于 LoRA 超过 10%-35%,同时在 MMLU、AGIEval 和 WinoGrande 中实现了同等或更好的性能。在大型模型上,特别是 LLaMA-2-70B,LISA 在 MT-Bench、GSM8K 和 PubMedQA 上超越了 LoRA,证明了其在不同领域的有效性 ...