基本信息

文件基本信息

名称

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

首页

https://yiyibooks.cn/arxiv/2403.17919v4/index.html

原始地址

https://arxiv.org/abs/2403.17919

描述

自大型语言模型 (LLM) 首次出现以来，机器学习社区已经取得了令人瞩目的进步。然而，它们的大量内存消耗已成为大规模训练的重大障碍。例如，7B 模型通常需要至少 60 GB 的 GPU 内存来进行全参数训练，这给无法访问高资源环境的研究人员带来了挑战。人们提出了诸如低秩适应（LoRA）之类的参数高效微调技术来缓解这个问题。然而，在大多数大规模微调设置中，它们的性能达不到全参数训练的水平，因为它们将参数搜索限制在低秩子空间中。为了弥补这一缺陷，我们研究了 LoRA 在微调任务上的分层特性，并观察到不同层之间权重规范的意外但一致的偏度。利用这一关键观察结果，发现了一种令人惊讶的简单训练策略，该策略在各种设置中都优于 LoRA 和全参数训练，且内存成本与 LoRA 一样低。我们将其命名为 Layerwise Importance Sampled AdamW (LISA)，这是 LoRA 的一个有前途的替代方案，它将重要性采样的思想应用于 LLM 中的不同层，并在优化过程中随机冻结大多数中间层。实验结果表明，在 GPU 内存消耗相似或更少的情况下，LISA 在下游微调任务中超越了 LoRA，甚至完全参数调整，其中 LISA 在 MT-Bench 得分方面始终优于 LoRA 超过 10%-35%，同时在 MMLU、AGIEval 和 WinoGrande 中实现了同等或更好的性能。在大型模型上，特别是 LLaMA-2-70B，LISA 在 MT-Bench、GSM8K 和 PubMedQA 上超越了 LoRA，证明了其在不同领域的有效性 ...