arxiv To Code, or Not To Code? Exploring Impact of Code in Pre-training

名称
To Code, or Not To Code? Exploring Impact of Code in Pre-training
首页
https://yiyibooks.cn/arxiv/2408.10914v1/index.html
原始地址
https://arxiv.org/pdf/2408.10914
描述
将代码包含在预训练数据混合物中,即使对于不是专门为代码设计的模型,也已成为 LLM 预训练中的常见做法。虽然从业者之间有一个共识,即代码数据在一般 LLM 的表现中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却很有限。在这项工作中,我们系统地研究了代码数据对总体性能的影响 ...