arxiv SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

名称
SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting
首页
https://yiyibooks.cn/arxiv/2504.08850v1/index.html
原始地址
https://arxiv.org/abs/2504.08850
描述
最近,通过有效减少硬件计算和内存访问来加速大型语言模型(LLMS)的早期退出是一种有前途的技术。在本文中,我们提出了Spece,这是一种快速的LLM推理引擎,具有投机性早期退出。 (1)在算法级别上,我们通过利用投机 Token 与正确的结果和GPU的高平行性之间的概率相关性来提出基于投机的轻质预测器设计 ...