名称
Aquila2 Technical Report
首页
https://yiyibooks.cn/arxiv/2408.07410v1/index.html
原始地址
https://arxiv.org/pdf/2408.07410.pdf
描述
本文介绍了 Aquila2 系列,该系列包含参数大小为 7、34 和 700 亿的多种双语模型。这些模型基于名为 HeuriMentor (HM) 的创新框架进行训练,该框架提供对模型收敛的实时洞察并增强训练过程和数据管理。 HM系统由自适应训练引擎(ATE)、训练状态监视器(TSM)和数据管理单元(DMU)组成,可以精确监控模型的训练进度,并有效优化数据分布,从而提高训练效果 ...