最近,大型语言模型(LLM)能够处理越来越长的上下文。但是,时间太长可能会导致不宽容的推理潜伏期和GPU内存使用量。现有方法将基于 Token 粒度的LLMS中的键值(KV)缓存提出了混合精确量化,该粒度在搜索过程中耗时,计算过程中的硬件效率低下 ...

0 0 0 0 2025/04/03 arXiv:2503.23294v1 jingxi

量化和混合精确方法的最新进展为提高神经网络(NN)的速度和能源效率提供了大量机会。研究表明,精确度较低的各个参数可以达到与全精度相当的准确性。但是,现代嵌入式的微处理器为混合精液NNS提供了非常有限的支持,即有关指令集架构(ISA)扩展及其硬件设计,以有效执行混合精液操作,即 ...

0 0 0 0 2025/03/26 arXiv:2407.14274v2 jingxi

FP8 训练已成为一种有前途的提高训练效率的方法。现有框架通过将 FP8 计算应用于线性层来加速训练,同时使优化器状态和激活保持更高精度,但这无法完全优化内存使用。本文介绍了 COAT(FP8 训练的压缩优化器状态和激活),这是一种新颖的 FP8 训练框架,旨在在训练大型模型时显着减少内存占用 ...

0 0 0 0 2025/03/07 arXiv:2410.19313v3 jingxi