- 名称
- Block Transformer: Global-to-Local Language Modeling for Fast Inference
- 描述
本文提出了 Block Transformer 架构,该架构对自回归 Transformer 采用分层全局到局部建模,以减轻自注意力的推理瓶颈。为了应用自注意力,必须在每个解码步骤从内存中检索所有先前序列的键值(KV)缓存。因此,这个 KV 缓存 IO 成为批量推理中的一个重要瓶颈 ...
本文提出了 Block Transformer 架构,该架构对自回归 Transformer 采用分层全局到局部建模,以减轻自注意力的推理瓶颈。为了应用自注意力,必须在每个解码步骤从内存中检索所有先前序列的键值(KV)缓存。因此,这个 KV 缓存 IO 成为批量推理中的一个重要瓶颈 ...