arxiv BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

名称
BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models
首页
https://yiyibooks.cn/arxiv/2404.02827v1/index.html
原始地址
https://arxiv.org/pdf/2404.02827
描述
这项工作提出了 BAdam,这是一种优化器,它利用以 Adam 作为内部求解器的块坐标优化框架。 BAdam 提供了一种内存有效的方法来对大型语言模型进行全参数微调,并由于链式规则属性而减少了后向过程的运行时间。实验上,我们使用 BAdam 使用单个 RTX3090-24GB GPU 在 Alpaca-GPT4 数据集上对 Llama 2-7B 模型进行指令调整 ...