基本信息 - BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

arxiv BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

阅读

Star 0

名称: BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

首页: https://yiyibooks.cn/arxiv/2404.02827v1/index.html

原始地址: https://arxiv.org/pdf/2404.02827

描述

这项工作提出了 BAdam，这是一种优化器，它利用以 Adam 作为内部求解器的块坐标优化框架。 BAdam 提供了一种内存有效的方法来对大型语言模型进行全参数微调，并由于链式规则属性而减少了后向过程的运行时间。实验上，我们使用 BAdam 使用单个 RTX3090-24GB GPU 在 Alpaca-GPT4 数据集上对 Llama 2-7B 模型进行指令调整 ...