基本信息 - SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

arxiv SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

Star 0

阅读

名称: SpecEE: Accelerating Large Language Model Inference with Speculative Early Exiting

首页: https://yiyibooks.cn/arxiv/2504.08850v1/index.html

原始地址: https://arxiv.org/abs/2504.08850

描述

最近，通过有效减少硬件计算和内存访问来加速大型语言模型（LLMS）的早期退出是一种有前途的技术。在本文中，我们提出了Spece，这是一种快速的LLM推理引擎，具有投机性早期退出。 （1）在算法级别上，我们通过利用投机 Token 与正确的结果和GPU的高平行性之间的概率相关性来提出基于投机的轻质预测器设计 ...

文件上传进度

0%

上传成功 0 个文件