arxiv RWKV: Reinventing RNNs for the Transformer Era

/documents/74937/

基本信息

文件基本信息

名称
RWKV: Reinventing RNNs for the Transformer Era
描述
Transformer 彻底改变了几乎所有自然语言处理 (NLP) 任务,但其内存和计算复杂性却与序列长度呈二次方关系。相比之下,循环神经网络 (RNN) 在内存和计算要求方面表现出线性扩展,但由于并行化和可扩展性的限制,很难达到与 Transformer 相同的性能。我们提出了一种新颖的模型架构,即接收加权键值(RWKV),它将 Transformer 的高效并行训练与 RNN 的高效推理相结合。我们的方法利用线性注意力机制,允许我们将模型制定为 Transformer 或 RNN,从而在训练期间并行计算,并在推理期间保持恒定的计算和内存复杂性。我们将模型扩展至 140 亿个参数,这是迄今为止训练过的最大的密集 RNN,并发现 RWKV 的性能与类似大小的 Transformer 相当,这表明未来的工作可以利用这种架构来创建更高效​​的模型。这项工作在协调序列处理任务中的计算效率和模型性能之间的权衡方面迈出了重要一步 ...