arxiv Oscillation-Reduced MXFP4 Training for Vision Transformers

名称
Oscillation-Reduced MXFP4 Training for Vision Transformers
首页
https://yiyibooks.cn/arxiv/2502.20853v1/index.html
原始地址
https://arxiv.org/abs/2502.20853
描述
FP4精度中的训练前 Transformer 正在成为一种有前途的方法,以获得大幅加速,但准确性丧失。显微镜(MX)数据格式提供了一种细粒度的每组量化方法,以提高FP4格式的表示能力,并由下一代Blackwell GPU体系结构支持。但是,使用MXFP4数据格式的培训仍然会导致大量降级,并且缺乏对原因的系统研究 ...