U2++ MoE：在对 RTF 影响最小的情况下扩展 4.7 倍参数

摘要

规模化开辟了自然语言处理的新领域，但成本很高。作为回应，通过学习仅激活训练和推理中的参数子集，Mixture-of-Experts (MoE) [1, 2] 已被提议作为一种节能路径，以实现更大、更多的目标强大的语言模型以及向新一代基础模型的转变正在获得动力，特别是在自动语音识别（ASR）领域。最近将 MoE 纳入 ASR 模型的工作[3,4,5,6]具有复杂的设计，例如通过补充嵌入网络路由帧，提高专家的多语言能力，以及利用专用辅助损失专家负载平衡或特定语言处理。我们发现精细的设计是不必要的，而用 MoE 层替换所有前馈网络 (FFN) 层的简单得令人尴尬的方式就可以胜任 ASR 任务。更具体地说，我们在大规模内部源数据集（160k 小时）上对我们提出的模型进行了基准测试，结果表明我们可以将基线 Conformer (Dense-225M) 扩展到其 MoE 对应项 (MoE-1B) 并实现 Dense -1B 级字错误率 (WER)，同时保持 Dense-225M 级实时因子 (RTF)。此外，通过应用具有双向注意力解码器的统一2-pass框架（U2++）[7]，我们在基于单个MoE的模型中实现了流式和非流式解码模式，我们将其称为U2++ MoE。我们希望我们的研究能够促进扩展语音基础模型的研究，而不牺牲部署效率。

索引术语—语音识别、专家混合、流媒体

1简介

鉴于自然语言处理 [8, 9] 和语音处理 [10, 11] 等各种任务的质量显着提高，扩展神经网络模型最近受到了极大的关注。 t1>.

虽然在大量数据上训练海量模型几乎可以保证质量的提高，但影响其实用性和适用性的因素有两个：（1）训练效率和（2）推理效率。大型密集模型的训练计算量通常过高，某些模型需要 TFlops 天的计算[9, 12]。最近的一项工作提出了稀疏门控专家混合 (MoE) 层 [1, 2] 作为密集模型的有效替代方案，以解决训练和推理效率限制。

ASR 建模有多种相关的专家混合方法[3,4,5,6]。在这些模型中，输入序列的每一帧都会激活不同的专家子集，因此每帧的计算成本仅与激活子网络的大小成正比。为了避免崩溃到只有少数专家而忽略所有其他专家，所有这些工作都使用负载平衡机制，例如专用辅助损失[2, 13]。尽管如此，由此产生的复杂优化目标通常会导致大量的超参数调整，例如每个辅助损失的权重。此外，负载均衡旨在解决 NLP 领域在路由不同 token 时的专家稀疏问题。然而，这个问题在语音领域可能不成立，因为相邻语音帧[14]之间存在高度相似性。强制语音帧在所有专家之间均匀分布并不符合直觉，因为它与在相邻语音帧之间的关系中观察到的自然连续性相冲突。

Refer to caption — 图。 1：提出的 U2++ MoE，一个统一的（流媒体和非流媒体）双通道（用于第一通道解码的编码器和用于第二通道重新评分的解码器）联合 CTC/AED 框架，通过双向解码器和专家混合进行增强。为了有效压缩语音帧，我们采用 1/8 二次采样，并使用 $M$ 编码器层和 $2N$ 解码器层构建我们的架构，其中 $N$ 层等分被分配给从右到左和从左到右的解码器。

尽管语音教育部取得了一些显着的成功，但由于训练复杂性和缺乏流媒体功能，广泛采用受到了阻碍。我们通过引入 U2++ MoE 来解决这些问题。我们简化了 MoE 的集成，并消除了任何辅助损失的必要性。我们提出的方法减轻了复杂性，并且我们首次展示了可以使用统一的流式和非流式方式训练大型稀疏模型。

2相关作品

已经开发了几种专家混合策略来增强 ASR 建模，但我们的工作在以下方面与它们不同。

1）

与所有先前的研究[3,4,5,6]相比，我们的 MoE 模型不包含专家路由的任何辅助损失，从而显着简化了优化过程。
2）

与[4,5,6]相比，我们的MoE研究也无需使用任何共享嵌入网络，从而简化了模型架构并增强了其模型扩展的通用性。
3）

与之前专门探索 MoE 层在编码器中的应用的所有工作[3,4,5,6]相比，我们的研究通过将 MoE 层集成到解码器的 FFN 中来扩展这一创新。值得注意的是，你等人[6]也尝试将编码器中的所有FFN模块修改为MoE层，但未能获得更好的性能(详细参见[6]，第 3.2 节，第 1 段，最后一句)。相比之下，我们是第一个证明 MoE 层替换在编码器和解码器组件上的有效性的人。
4）

我们是展示 MoE 流媒体功能的先驱。而胡等人。 [3] 尝试将 MoE 层集成到因果编码器中以实现流式识别，他们的方法导致平均 WER 显着恶化(详细信息请参阅 [3]，第 5.1.1 节，第 2 段，第一句)。与此形成鲜明对比的是，我们的方法将基于 MoE 的 Conformer 与 U2++ 框架相结合，成功地在单个基于 MoE 的模型中促进了流式和非流式解码模式。
5）

我们的研究主要强调在不显着增加 RTF 的情况下扩展模型，这与之前主要致力于提高多语言或多口音识别的准确性[3,4,5,6]的努力不同。这些研究缺乏对推理延迟的全面分析，例如 Dense-1B 模型与 Dense-1B 模型对比。 MoE-1B 型号或 Dense-225M 型号与 MoE-1B 模型。然而，在本文中，我们证明 MoE-1B 模型可以达到 Dense-1B 模型的准确性，同时保持 Dense-225M 模型的推理效率。

总之，我们的指导原则是保持 MoE 模型尽可能简单，因此对于扩大模型来说更通用。我们的模型不需要任何辅助损失或任何额外的嵌入网络。通过应用 1) 用 MoE 层简单地替换所有 FFN 层和 2) U2++ 框架到 Conformer [15]，我们证明 MoE-1B 模型可以通过 Dense 达到 Dense-1B 级别的精度-225M 级别的推理成本，以及流媒体功能。

3方法论

我们的模型使用 Conformer（用于编码器）和 Transformer（用于解码器）作为主要构建块。 Conformer 编码器层 [15] 由多头自注意力层和夹在两个 FFN 之间的基于卷积的层组成。 Transformer 解码层 [16] 由多头自注意力、多头 src-attention 和一个 FFN 组成。如图1所示，为了合并专家，我们使用MoE层[1, 2]来替换编码器和解码器中的所有FFN。与[1, 2]类似，MoE层由路由网络和多个专家组成，每个专家都是一个FFN。

我们使用联合连接时间分类（CTC）损失[17]和自回归编码器解码器（AED）损失[16]来训练所提出的模型。组合损失有两个超参数( $\lambda$ 和 $\alpha$ )来平衡不同损失的重要性(更多细节可以在[7]中找到>，第 2.1 节)：

L=\lambda L_{CTC}+(1-\lambda)(\alpha L_{AED}^{right2left}+(1-\alpha)L_{AED}^{% left2right})

(1)

与U2[18]类似，我们采用动态块屏蔽策略来统一流式和非流式模式。首先，输入按固定块大小 $C$ 分为多个块，每个块都参与其自身和所有先前的块，因此第一遍中 CTC 解码的整个延迟仅取决于块尺寸。当chunk大小有限时，以流式方式工作；否则它会以非流的方式工作。其次，块大小在训练中从 1 到当前训练单词的最大长度动态变化，因此训练后的模型学习以任意块大小进行预测。

4实验

4.1数据集

我们的训练语料库包含从各种应用领域收集的混合数据集，总计达 16 万小时的大规模工业级训练数据。该语料库主要由普通话（90%）组成，其余为英语（10%）。

为了评估所提出方法的能力，我们使用最广泛使用的普通话 ASR 任务基准，即 SpeechIO TIOBE ASR Benchmark ¹¹1https://github.com/SpeechColab/Leaderboard。 SpeechIO 测试集由 SpeechIO 作者精心策划，从公开来源（Youtube、电视节目、播客等）抓取，涵盖各种众所周知的场景和主题（电视新闻、VLog、纪录片等），由付费专业注释者转录因此非常适合测试模型的一般语音识别能力。总共 26 个公开可用的 SpeechIO 测试集总计 60.2 小时，每个域的数据平均为 2.3 小时。

4.2培训详情

在所有实验中，我们利用 80 维 log-mel 滤波器组特征，使用每 10ms 移动一次的 25ms 窗口计算。每个帧都经过全局均值和方差归一化。对于普通话建模，我们采用基于字符的表示，而对于英语，我们采用字节对编码 (BPE)，最终形成 6000 个单元的综合词汇。我们所有的实验均在启用 DeepSpeed [19] 的 WeNet 工具包 [7] 中进行，所有模型均使用 8 * NVIDIA 3090 (24GB) GPU 进行训练。

我们开发了三种不同的模型，如表 1 所示，所有模型均采用参数 $Head=8$ 、 $CNN_{kernel}=15$ 、 $\lambda=0.3$ 、和 $\alpha=0.3$ 。在 MoE 层的上下文中，我们配置了 8 个专家进行训练，并且在推理阶段仅启用前两名专家。对于解码过程，CTC 解码器最初在第一遍期间生成 N-Best 假设。随后，注意力解码器在第二遍中对这些假设进行重新评分，以产生最终结果。

表1：不同型号的配置。

(a) Model	(b) $M$	(c) $N$	(d) $d^{ff}$	(e) $d^{att}$
Dense-225M	12	3	2880	720
Dense-1B	32	6	4096	1024
MoE-1B	12	3	2880	720

4.3 160k 小时的主要结果

表2：遵循缩放法则[20]，我们在固定数据集（160k 小时）上比较相同训练步数（236k 步）或计算时间（25.9 天）的模型 WER。

(a) TestSet	(b) Dense-225M	(c) Dense-225M	(d) Dense-1B	(e) MoE-1B	(f) MoE-1B
	236k steps, 9.3 days	657k steps, 25.9 days	236k steps, 25.9 days	236k steps, 16.8 days	364k steps, 25.9 days
speechio_001	1.28	1.15	0.92	0.95	0.90
speechio_002	3.51	3.30	3.03	3.08	2.94
speechio_003	2.34	2.11	1.74	1.68	1.63
speechio_004	2.05	1.96	1.79	1.87	1.93
speechio_005	2.06	1.92	1.84	1.78	1.73
speechio_006	7.24	6.69	6.34	6.35	6.34
speechio_007	10.23	10.12	8.77	9.67	9.23
speechio_008	7.34	6.29	5.78	6.13	5.59
speechio_009	3.94	3.67	3.45	3.60	3.52
speechio_010	4.76	4.68	4.37	4.55	4.49
speechio_011	3.21	2.88	2.31	2.36	2.28
speechio_012	3.39	3.22	2.91	3.01	2.97
speechio_013	4.15	3.81	3.62	3.71	3.69
speechio_014	5.01	4.45	3.87	4.06	3.83
speechio_015	7.58	6.77	6.43	6.69	7.03
speechio_016	5.15	4.46	3.95	4.02	3.82
speechio_017	4.11	3.87	3.24	3.52	3.49
speechio_018	2.69	2.57	2.38	2.56	2.44
speechio_019	3.91	3.29	2.95	3.05	2.90
speechio_020	3.05	2.97	2.33	2.51	2.47
speechio_021	2.75	2.89	2.53	2.73	2.73
speechio_022	5.55	5.15	4.50	4.86	4.52
speechio_023	6.05	5.99	4.89	5.86	5.25
speechio_024	5.61	5.19	4.61	4.76	4.78
speechio_025	5.76	5.30	4.36	4.83	4.61
speechio_026	4.37	4.01	3.90	4.02	3.84
average	4.50	4.18	3.72	3.93	3.80

在表.2中，我们比较了表.1中三个模型在不同条件下（例如相同训练步数或相同训练时间）的性能，结果表明：

1）

在相同的训练步数（263k步）下，比较（b）、（d）和（e）列，发现MoE-1B模型的WER（3.93）比Dense-1B模型稍差(3.72)，但两者都显着优于 Dense-225M 基线 (4.50)。
2）

在相同的训练时间（25.9天）下，比较（c）、（d）和（f）列可以看出，MoE-1B模型的WER（3.80）非常接近Dense-1B模型的WER（3.72）），并且都大大超过了 Dense-225M 模型 (4.18)。

这些结果表明，在 160k 小时的数据集上，更多的参数（从 225M 到 1B）会带来更好的模型性能。而且，当参数数量相同时，MoE模型可以达到与Dense模型相当的WER水平。

此外，在表3中，我们比较了三种模型的推理速度，结果显示：

1）

尽管MoE-1B和Dense-1B的参数数量相同，但前者的速度比后者快2.5倍。
2）

尽管MoE-1B的参数数量是Dense-225M的4.7倍，但两者之间的RTF绝对差异仅约为0.03（对于CPU）或0.0004（对于GPU）。

总体而言，结合 WER 和 RTF 结果，我们可以确认MoE-1B 模型能够以 Dense-225M 级别的推理成本实现 Dense-1B 级别的精度。

表3： RTF 基准。使用 CPU 进行测试时，我们将批量大小设置为 1，并在 Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz 上使用单线程对 int8 量化模型进行推理。对于基于 GPU 的评估，我们将批量大小设置为 200，并使用单个 NVIDIA 3090 对 FP16 模型执行推理。请注意，我们不包括用于解码器重新评分的 GPU RTF，因为该过程的推理时间主要由 CPU 上运行的 CTC 前缀波束搜索主导，因此它不能客观地反映 GPU 上的推理时间。

(a) Model	(b) ctc greedy decoding	(c) decoder rescoring
Dense-225M	0.1088 (cpu) / 0.0012 (gpu)	0.1524 (cpu)
Dense-1B	0.3155 (cpu) / 0.0028 (gpu)	0.4515 (cpu)
MoE-1B	0.1299 (cpu) / 0.0016 (gpu)	0.1826 (cpu)

4.4流媒体能力

根据经验，训练一个大型模型来同时适应流式和非流式模式可能会损害性能。作为回应，本文引入了一个两阶段的训练管道。最初，我们训练一个非流基础模型（例如 4.2 节和表 1 中描述的 MoE-1B 和 Dense-225M），然后将其用作初始化所提出的 U2++-MoE-1B 模型（以及 U2++-Dense-225M、U2++-Dense-1B）的基础。 MoE-1B 模型与 U2++-MoE-1B 模型共享相同的架构，唯一的区别在于它们的块屏蔽方法。 MoE-1B 采用全块策略，而 U2++-MoE-1B 采用动态块方法，如 3 节中详述。这种方法稳定了能够处理流式和非流式功能的统一系统的训练过程。

在表4中，通过比较三种不同的流式模型，我们可以得出与非流式模型（第4.3节）相同的结论，即我们提出的MoE模型在 WER 方面显着优于 Dense 对应项，同时保持类似的 RTF。请注意，不包括 U2++-Dense-1B 模型的 WER。这是由于训练过程中频繁发生梯度爆炸，尽管使用非流Dense-1B模型进行初始化，但导致训练无法持续。

表4： SpeechIO 测试集上的平均流结果：WER 使用 640ms 块大小测量，RTF 使用与表 3 中相同的硬件 (CPU) 和方法（解码器重新评分）计算。所有模型均从各自的非流基线初始化，随后进行总共 16 万步的训练。

(a) Model	(b) WER	(c) RTF
U2++-Dense-225M	6.24	0.1937
U2++-Dense-1B	N/A	0.6015
U2++-MoE-1B	4.83	0.2436

5结论

提议的 U2++ MoE 提供了一个干净的设置和很少的特定于任务的设计。通过用 MoE FFN 直接替换基线模型中的所有 FFN 层，再加上 U2++ 训练框架的采用，我们在 WER 和流识别能力方面获得了显着增强，而 RTF 没有显着增加。

6致谢

我们感谢李文鹏和牛建伟对这项工作的反馈。

参考

[1] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc V. Le, Geoffrey E. Hinton, and Jeff Dean, “Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,” in 5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24-26, 2017, Conference Track Proceedings. 2017, OpenReview.net.
[2] Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen, “Gshard: Scaling giant models with conditional computation and automatic sharding,” in 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. 2021, OpenReview.net.
[3] Ke Hu, Bo Li, Tara N. Sainath, Yu Zhang, and Françoise Beaufays, “Mixture-of-expert conformer for streaming multilingual ASR,” CoRR, vol. abs/2305.15663, 2023.
[4] Zhao You, Shulin Feng, Dan Su, and Dong Yu, “Speechmoe: Scaling to large acoustic models with dynamic routing mixture of experts,” in Interspeech 2021, 22nd Annual Conference of the International Speech Communication Association, Brno, Czechia, 30 August - 3 September 2021, Hynek Hermansky, Honza Cernocký, Lukás Burget, Lori Lamel, Odette Scharenborg, and Petr Motlícek, Eds. 2021, pp. 2077–2081, ISCA.
[5] Wenxuan Wang, Guodong Ma, Yuke Li, and Binbin Du, “Language-routing mixture of experts for multilingual and code-switching speech recognition,” CoRR, vol. abs/2307.05956, 2023.
[6] Zhao You, Shulin Feng, Dan Su, and Dong Yu, “3m: Multi-loss, multi-path and multi-level neural networks for speech recognition,” in 13th International Symposium on Chinese Spoken Language Processing, ISCSLP 2022, Singapore, December 11-14, 2022, Kong Aik Lee, Hung-yi Lee, Yanfeng Lu, and Minghui Dong, Eds. 2022, pp. 170–174, IEEE.
[7] Binbin Zhang, Di Wu, Zhendong Peng, Xingchen Song, Zhuoyuan Yao, Hang Lv, Lei Xie, Chao Yang, Fuping Pan, and Jianwei Niu, “Wenet 2.0: More productive end-to-end speech recognition toolkit,” CoRR, vol. abs/2203.15455, 2022.
[8] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al., “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, pp. 9, 2019.
[9] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei, “Language models are few-shot learners,” in Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin, Eds., 2020.
[10] Alec Radford, Jong Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever, “Robust speech recognition via large-scale weak supervision,” in International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA, Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett, Eds. 2023, vol. 202 of Proceedings of Machine Learning Research, pp. 28492–28518, PMLR.
[11] Yu Zhang, Wei Han, James Qin, Yongqiang Wang, Ankur Bapna, Zhehuai Chen, Nanxin Chen, Bo Li, Vera Axelrod, Gary Wang, Zhong Meng, Ke Hu, Andrew Rosenberg, Rohit Prabhavalkar, Daniel S. Park, Parisa Haghani, Jason Riesa, Ginger Perng, Hagen Soltau, Trevor Strohman, Bhuvana Ramabhadran, Tara N. Sainath, Pedro J. Moreno, Chung-Cheng Chiu, Johan Schalkwyk, Françoise Beaufays, and Yonghui Wu, “Google USM: scaling automatic speech recognition beyond 100 languages,” CoRR, vol. abs/2303.01037, 2023.
[12] Sneha Kudugunta, Yanping Huang, Ankur Bapna, Maxim Krikun, Dmitry Lepikhin, Minh-Thang Luong, and Orhan Firat, “Beyond distillation: Task-level mixture-of-experts for efficient inference,” in Findings of the Association for Computational Linguistics: EMNLP 2021, Virtual Event / Punta Cana, Dominican Republic, 16-20 November, 2021, Marie-Francine Moens, Xuanjing Huang, Lucia Specia, and Scott Wen-tau Yih, Eds. 2021, pp. 3577–3599, Association for Computational Linguistics.
[13] William Fedus, Barret Zoph, and Noam Shazeer, “Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,” J. Mach. Learn. Res., vol. 23, pp. 120:1–120:39, 2022.
[14] Yu-An Chung, Wei-Ning Hsu, Hao Tang, and James R. Glass, “An unsupervised autoregressive model for speech representation learning,” in 20th Annual Conference of the International Speech Communication Association (Interspeech 2019), Gernot Kubin and Zdravko Kacic, Eds., Graz, Austria, 2019, pp. 146–150, ISCA.
[15] Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, and Ruoming Pang, “Conformer: Convolution-augmented transformer for speech recognition,” in Interspeech 2020, 21st Annual Conference of the International Speech Communication Association, Virtual Event, Shanghai, China, 25-29 October 2020, Helen Meng, Bo Xu, and Thomas Fang Zheng, Eds. 2020, pp. 5036–5040, ISCA.
[16] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention is all you need,” in Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems (NeurIPS 2017), Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, Eds., Long Beach, USA, 2017, pp. 5998–6008, ACM.
[17] Alex Graves, Santiago Fernández, Faustino J. Gomez, and Jürgen Schmidhuber, “Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,” in 23rd International Conference on Machine Learning (ICML 2006), William W. Cohen and Andrew W. Moore, Eds., Pittsburgh, USA, 2006, pp. 369–376, ACM.
[18] Zhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu, Chao Yang, Zhendong Peng, Xiaoyu Chen, Lei Xie, and Xin Lei, “Wenet: Production oriented streaming and non-streaming end-to-end speech recognition toolkit,” in Interspeech 2021, 22nd Annual Conference of the International Speech Communication Association, Brno, Czechia, 30 August - 3 September 2021, Hynek Hermansky, Honza Cernocký, Lukás Burget, Lori Lamel, Odette Scharenborg, and Petr Motlícek, Eds. 2021, pp. 4054–4058, ISCA.
[19] Jeff Rasley, Samyam Rajbhandari, Olatunji Ruwase, and Yuxiong He, “Deepspeed: System optimizations enable training deep learning models with over 100 billion parameters,” in KDD ’20: The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, Virtual Event, CA, USA, August 23-27, 2020, Rajesh Gupta, Yan Liu, Jiliang Tang, and B. Aditya Prakash, Eds. 2020, pp. 3505–3506, ACM.
[20] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei, “Scaling laws for neural language models,” CoRR, vol. abs/2001.08361, 2020.