基本信息

文件基本信息

名称

Attention Is All You Need

首页

https://yiyibooks.cn/arxiv/1706.03762v7/index.html

原始地址

https://arxiv.org/abs/1706.03762

描述

主要序列转导模型基于编码器-解码器配置中的复杂循环或卷积神经网络。性能最好的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer，它完全基于注意力机制，完全不需要递归和卷积。对两个机器翻译任务的实验表明，这些模型具有卓越的质量，同时具有更高的并行性，并且需要的训练时间显着减少。我们的模型在 WMT 2014 英语到德语翻译任务中取得了 28.4 BLEU，比现有的最佳结果有所提高，包括超过 2 BLEU 的集成。在 WMT 2014 英法翻译任务中，我们的模型在 8 个 GPU 上训练 3.5 天后，建立了新的单模型最先进 BLEU 分数 41.8，这只是文献中最佳模型训练成本的一小部分。我们通过将 Transformer 成功应用于具有大量和有限训练数据的英语选区解析，证明 Transformer 可以很好地推广到其他任务 ...