- 名称
- SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting
- 描述
最近,通过有效减少硬件计算和内存访问来加速大型语言模型(LLMS)的早期退出是一种有前途的技术。在本文中,我们提出了Spece,这是一种快速的LLM推理引擎,具有投机性早期退出。 (1)在算法级别上,我们通过利用投机 Token 与正确的结果和GPU的高平行性之间的概率相关性来提出基于投机的轻质预测器设计 ...
最近,通过有效减少硬件计算和内存访问来加速大型语言模型(LLMS)的早期退出是一种有前途的技术。在本文中,我们提出了Spece,这是一种快速的LLM推理引擎,具有投机性早期退出。 (1)在算法级别上,我们通过利用投机 Token 与正确的结果和GPU的高平行性之间的概率相关性来提出基于投机的轻质预测器设计 ...