基本信息 - Block Transformer: Global-to-Local Language Modeling for Fast Inference

arxiv Block Transformer: Global-to-Local Language Modeling for Fast Inference

阅读

Star 0

名称: Block Transformer: Global-to-Local Language Modeling for Fast Inference

首页: https://yiyibooks.cn/arxiv/2406.02657v1/index.html

原始地址: https://arxiv.org/pdf/2406.02657

描述

本文提出了 Block Transformer 架构，该架构对自回归 Transformer 采用分层全局到局部建模，以减轻自注意力的推理瓶颈。为了应用自注意力，必须在每个解码步骤从内存中检索所有先前序列的键值（KV）缓存。因此，这个 KV 缓存 IO 成为批量推理中的一个重要瓶颈 ...

0%

上传成功 0 个文件