最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...
量化和混合精确方法的最新进展为提高神经网络(NN)的速度和能源效率提供了大量机会。研究表明,精确度较低的各个参数可以达到与全精度相当的准确性。但是,现代嵌入式的微处理器为混合精液NNS提供了非常有限的支持,即有关指令集架构(ISA)扩展及其硬件设计,以有效执行混合精液操作,即 ...
FP8 训练已成为一种有前途的提高训练效率的方法。现有框架通过将 FP8 计算应用于线性层来加速训练,同时使优化器状态和激活保持更高精度,但这无法完全优化内存使用。本文介绍了 COAT(FP8 训练的压缩优化器状态和激活),这是一种新颖的 FP8 训练框架,旨在在训练大型模型时显着减少内存占用 ...