PanGu-Coder：使用函数级语言建模进行程序综合

Fenia Christopoulou Gerasimos Lampouras Milan Gritta Guchun Zhang
Yinpeng Guo Zhongqi Li Qi Zhang Meng Xiao Huawei Noah’s Ark Lab Bo Shen Huawei Cloud Lin Li Huawei Cloud
Hao Yu Huawei Cloud Li Yan Huawei Cloud Pingyi Zhou Huawei Noah’s Ark Lab Xin Wang Huawei Noah’s Ark Lab Yuchi Ma Ignacio Iacobacci
Yasheng Wang Guangtai Liang Huawei Cloud Jiansheng Wei Huawei Noah’s Ark Lab Xin Jiang Huawei Noah’s Ark Lab
Qianxiang Wang Huawei Cloud Qun Liu Huawei Noah’s Ark Lab

摘要

我们提出了 PanGu-Coder，这是一种预训练的仅解码器语言模型，采用 PanGu- $\alpha$ 架构进行文本到代码生成，即合成给出自然语言问题描述的编程语言解决方案。我们使用两阶段策略训练PanGu-Coder：第一阶段采用因果语言模型（CLM）对原始编程语言数据进行预训练，而第二阶段结合使用因果语言模型掩码语言建模 (MLM) 训练目标侧重于文本到代码生成的下游任务以及松散管理的自然语言程序定义和代码函数对。最后，我们讨论 PanGu-Coder-FT，它结合了竞争性编程问题和持续集成测试的代码进行了微调。我们评估 PanGu-Coder 的重点是它是否生成功能正确的程序，并证明它比类似大小的模型（例如 CodeX [16])实现了相同或更好的性能，同时参加较小的上下文窗口并使用较少的数据进行训练。

1简介

基于 Transformer [66] 架构的越来越多的大型预训练语言模型 [56, 23, 58, 32] 已经被提出并被证明可以实现状态 -在各种自然语言处理（NLP）任务上取得了最先进的成果。最近，此类模型已适应更具体的语言领域，例如生物医学[37,46,9]、法律[14]、网络安全[2]和金融[6 ] 领域，同时扩展到包括来自自然语言以外的模式的信号，例如视觉 [65, 18, 15, 13, 64, 25]，蛋白质 [11]，时间序列 [71, 72, 55]和代码[42,70,26,31,54]。

在这项工作中，我们专注于专门为文本到代码生成而创建的预训练语言模型，即从自然语言（NL）描述（例如问题定义或文档字符串）合成程序的任务。虽然针对此任务提出的一些模型采用了编码器-解码器架构[47]，但大多数模型都被训练为仅解码器的 Transformer 模型[16,51,27]。编码器-解码器架构要求输入和输出之间有明确的区别和关联。相比之下，单个组件（仅编码器或仅解码器）架构将输入视为连续序列，因此非常适合对大量原始数据进行训练。无论架构如何，最近的工作都是对从 GitHub¹¹1github.com，Stack Exchange²²2stackoverflow.com 和其他来源，其中一些是从专门在 NL 上预训练的现有语言模型初始化的（例如从 GPT [12]2> 或 BERT [23] 初始化>)。

我们提出了 PanGu-Coder，这是一种用于文本到代码生成的预训练语言模型。 PanGu-Coder遵循引入的PanGu- $\alpha$ 架构（见图LABEL:fig:pangu_alpha) Zeng 等人[73]，它由一个单向解码器 Transformer 和一个堆叠在顶部的额外查询层组成。在每个时间步 $t$ ，查询层都会关注位置嵌入 $t+1$ 以确定下一个词符。虽然 PanGu- $\alpha$ 被提议用于处理英文和中文 NL 文本，但 PanGu-Coder 目前专注于从专门的文本到代码生成英文提示。 PanGu-Coder 目前仅支持 Python 输出，但该模型可以轻松扩展到其他语言。

我们使用两阶段策略来训练 PanGu-Coder，第一阶段作为无监督原始编程语言数据的预训练。在此阶段，自然语言以文档字符串或内联注释（如果有）的形式包含在内。为了充分利用原始数据，我们遵循现有仅解码器模型的训练机制，并采用常规因果语言建模 (CLM) [56]，同时将所有数据视为连续序列。训练的第二阶段旨在关注文本到代码生成的下游任务，并利用它包含不同的源序列和目标序列的事实，即输入 NL 问题定义和输出代码。因此，第二阶段专门关注 NL 和代码的对齐对。我们尝试了各种训练目标，包括因果和掩码语言建模 (MLM) 目标的组合，从编码器-解码器架构的训练方案中汲取灵感。通过这种两阶段方法，我们的模型能够在第一阶段通过原始数据学习一般代码结构与自然语言的关系，然后在第二阶段关注如何在给定 NL 输入的情况下最好地生成正确的输出代码。最后，我们还使用与目标域更密切相关的数据PanGu-Coder（第3节）。我们根据所使用的数据的性质将阶段 2 训练与微调区分开来，即从可能未对齐或嘈杂的在线源中提取的数据与更适合文本到代码生成的数据，例如从编程竞赛中检索。

本技术报告的其余部分组织如下。 2 部分正式定义了文本到代码生成的任务。在LABEL:sec:training_methodology部分，我们详细介绍了我们的训练数据、方法并展示了零样本结果和分析。同样，第3部分介绍了我们的微调方法、数据和结果。最后，第4节讨论了相关工作。

2 任务定义

Refer to caption — Table 7: PanGu-Coder-FT (fine-tuned with competitive and continuous integration data), PanGu-Coder-MBPP (fine-tuned on MBPP train set only), PanGu-Coder(trained on open-source data).

Models	MBPP (%)			HumanEval (%)
Models	pass@ $1$	pass@ $10$	pass@ $100$	pass@ $1$	pass@ $10$	pass@ $100$
PanGu-Coder	16.20	34.39	53.74	17.07	24.05	34.55
PanGu-Coder-FT	24.60	44.19	63.07	19.50	25.96	40.80
PanGu-Coder-MBPP	25.40	43.32	60.03	15.24	22.73	32.65

Model	Train	Sample	MBPP (%)			HumanEval (%)
Model	Train	Sample	pass@ $1$	pass@ $10$	pass@ $100$	pass@ $1$	pass@ $10$	pass@ $100$
PanGu-Coder	N/A	✓	16.20	34.39	53.74	17.07	24.05	34.55
PanGu-Coder	N/A	✗	17.40	34.29	50.91	16.46	23.38	33.58
+ MBPP-train	✗	✗	20.00	37.70	53.04	15.85	24.11	33.66
+ MBPP-train	✗	✓	23.60	40.91	58.91	13.41	23.52	33.44
+ MBPP-train	✓	✗	21.00	36.44	51.92	16.46	23.79	31.50
+ MBPP-train	✓	✓	25.40	43.32	60.03	15.24	22.73	32.65

Filtering Method		PanGu-Coder		PanGu-Coder-FT
Filtering Method		pass@1	pass@10	pass@1	pass10
Unit Testing	Base	14.53	-	16.67	-
Unit Testing	Filter	35.48	-	41.52	-
Typing	Base	25.16	50.65	30.45	54.61
Typing	Filter	26.99	52.00	31.30	55.72
Invalid Syntax	Base	12.05	23.27	13.85	25.40
Invalid Syntax	Filter	12.06	23.27	13.86	25.44

	$\displaystyle p_{emb}=\frac{1}{\|P\|}\sum_{i=1}^{P}f(p_{i})$		(6)
	$\displaystyle\vspace{1.5cm}distance(x_{i})=MSE\left(f(x_{i}),\ p_{emb}\right)$		(7)

PanGu-Coder：使用函数级语言建模进行程序综合

摘要

1简介

2 任务定义

3 Fine-Tuning Methodology

Competitive Programming Data

Continuous Integration Data

Training Details

3.1 Fine-tuning Results

3.1.1 Impact of In-domain Data

3.1.2 Impact of Unit Tests

3.1.3 Filtering Generated Programs

Unit Tests

Typing

Invalid Syntax

3.2 Data Selection with Few-Shot Similarity

4 Related Work

4.1 Pre-trained Language Models for Programming Language

Code Understanding

Code Generation

4.2 Code Datasets and Evaluation

5 Conclusions

6 Acknowledgements

References

Appendix A Qualitative Analysis of Example Outputs