大型语言模型(LLMS)(例如ChatGpt)在代码生成中表现出令人印象深刻的性能 ...
我们介绍了一种新颖的方法,通过将特定于任务的嵌入对齐方式集成到检索功能增强的生成(RAG)框架中,从而增强了从Fortran为C ++的跨语言代码翻译。与传统的检索方法使用通用嵌入不可知论的下游任务不同,我们的策略将检索模型直接与最大化翻译质量的目的保持一致,该目标是由CodebleU Metric量化的。这种对齐可确保嵌入对于特定代码翻译任务上具有语义和句法有意义 ...
存储库级代码完成旨在在指定的存储库的上下文中生成未完成的代码段的代码。由于输入序列长度的限制,现有的方法主要依赖于检索增强的生成策略。但是,基于BM25的传统基于词汇的检索方法难以捕获代码语义,而基于模型的检索方法由于缺乏标记的培训数据而面临挑战 ...
代码生成旨在根据自然语言描述自动生成特定编程语言的代码段。深度学习的持续进步,尤其是预培训的模型,赋予了代码生成任务,以实现出色的性能。代码生成的预训练模型的一个主要挑战是自然语言要求和源代码之间的语义差距 ...
代码预训练模型的兴起已显着增强了各种编码任务,例如代码完成以及诸如GitHub Copilot之类的工具。但是,这些模型(尤其是大型模型)的实质性尺寸在对特定的下游任务进行微调时构成了重大挑战。作为另一种方法,基于检索的方法已成为一种有前途的解决方案,增强了模型预测而无需进行微调 ...
包装的源代码存储库记录了软件包的开发历史记录,为包装的使用和风险监视提供了必不可少的信息。但是,由于软件包的开发平台与其分销平台分开,包装版本通常会错过其源代码存储库。现有工具从其元数据中检索发行版的存储库信息,这有两个限制:元数据可能不包含或包含错误的信息 ...
大型语言模型的引入显着改进了代码生成。然而,开源模型通常缺乏 GPT-4 代码解释器等高级系统的执行能力和迭代细化。为了解决这个问题,我们引入了 OpenCodeInterpreter,这是一个开源代码系统系列,旨在生成、执行和迭代优化代码 ...
由于人工智能(AI)的发展,科学研究范式正在经历深刻的转变。最近的工作表明,各种AI辅助研究方法可以通过改善数据分析,加速计算和促进新颖的想法产生来在很大程度上提高研究效率。进一步朝着最终目标迈进(i ...
本文提出了一种用于源代码相似性检测的新方法,该方法将附加的输出功能集成到分类过程中,以改善模型性能。我们的方法基于GraphCodebert模型,该模型使用自定义输出特征层扩展和用于改进特征表示的串联机制。该模型经过训练和评估,从精确,召回和F量表方面取得了令人鼓舞的结果 ...
关于软件工程(SE)任务,大型语言模型(LLMS)具有零射击学习的能力,而零局部学习不需要培训或微调,这与预先训练的模型(PTMS)不同。但是,LLM主要是为自然语言输出而设计的,并且不能直接从源代码中产生中间嵌入。他们还面临一些挑战,例如,受限制的上下文长度可能会阻止他们处理较大的输入,从而将其适用性限制在许多SE任务中。当将LLMS应用于复杂的下游任务时,可能会发生幻觉 ...