自大型语言模型 (LLM) 首次出现以来,机器学习社区取得了令人瞩目的进步,但其巨大的内存消耗已成为大规模训练的主要障碍。人们提出了诸如低秩适应(LoRA)之类的参数高效微调技术来缓解这个问题,但它们的性能在大多数大规模微调设置中仍然无法与全参数训练相匹配。为了弥补这一缺陷,我们研究了 LoRA 在微调任务上的分层特性,并观察到不同层之间权重规范的罕见偏斜 ...

0 0 0 0 2024/03/29 arXiv:2403.17919v2 lukki

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)