arxiv Block Transformer: Global-to-Local Language Modeling for Fast Inference

名称
Block Transformer: Global-to-Local Language Modeling for Fast Inference
首页
https://yiyibooks.cn/arxiv/2406.02657v1/index.html
原始地址
https://arxiv.org/pdf/2406.02657
描述
本文提出了 Block Transformer 架构,该架构对自回归 Transformer 采用分层全局到局部建模,以减轻自注意力的推理瓶颈。为了应用自注意力,必须在每个解码步骤从内存中检索所有先前序列的键值(KV)缓存。因此,这个 KV 缓存 IO 成为批量推理中的一个重要瓶颈 ...