arxiv DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding

/documents/70809/

基本信息

文件基本信息

名称
DiffuSpec: Unlocking Diffusion Language Models for Speculative Decoding
描述
随着大型语言模型 (LLM) 的扩展,准确性会提高,但解码的自回归 (AR) 性质会增加延迟,因为每个 Token 都需要串行前向传递。推测解码通过使用快速起草者提出多 Token 草案来解决这个问题,然后由目标模型并行验证。然而,许多部署仍然依赖 AR 绘图器,其中顺序传递限制了挂钟增益。我们重新审视起草阶段并提出 DiffuSpec,这是一个免训练的嵌入式框架,它使用预训练的扩散语言模型 (DLM) 在一次前向传递中生成多 Token 草案,同时保持与标准 AR 验证器的兼容性。由于 DLM 草稿是在双向条件下生成的,因此并行的每个位置候选者形成一个 Token 网格,其中每个位置处的局部最高概率 Token 不需要形成因果的从左到右路径。此外,DLM 绘图需要预先指定绘图长度,从而导致速度与质量之间的权衡。为了应对这些挑战,我们引入了两个实用的组件:(i)在该网格上进行因果一致性路径搜索(CPS),提取与 AR 验证一致的从左到右的路径; (ii) 自适应草稿长度 (ADL) 控制器,根据最近的接受反馈和实现的生成长度调整下一个提案大小。在各个基准测试中,DiffuSpec 实现了高达 3 倍的挂钟加速,将基于扩散的绘图建立为用于推测解码的自回归绘图器的强大替代方案 ...