BigCode 社区是一个致力于代码大型语言模型(Code LLM)负责任开发的开放式科学合作组织,推出了 StarCoder 和 StarCoderBase:具有 8K 上下文长度、填充功能和通过多个支持的快速大批量推理的 15.5B 参数模型。 -询问关注。 StarCoderBase 使用来自 The Stack 的 1 万亿个 Token 进行训练,The Stack 是大量经过许可许可的 GitHub 存储库,具有检查工具和选择退出流程 ...

0 0 0 0 2024/04/17 arXiv:2305.06161v2 zhufeizzz

程序综合致力于生成计算机程序作为给定问题规范的解决方案,用输入输出示例或自然语言描述来表达。大型语言模型的盛行推动了程序合成的最先进水平,尽管有限的培训资源和数据阻碍了对此类模型的开放访问。为了实现这一点的民主化,我们训练并发布了一系列最多 16 个的大型语言模型 ...

0 0 0 0 2024/04/14 arXiv:2203.13474v5 zhufeizzz

我们推出了 Semantic Interpreter,这是一种适用于 Microsoft Office 等生产力软件的自然语言友好型 AI 系统,它利用大型语言模型 (LLM) 跨应用程序功能执行用户意图。虽然 LLM 非常擅长理解以自然语言表达的用户意图,但它们不足以满足特定于应用程序的用户意图,这需要的不仅仅是文本到文本的转换。因此,我们引入了 Office 域特定语言 (ODSL),这是一种简洁的高级语言,专门用于在 Office 应用程序中执行操作并与实体交互 ...

0 0 0 0 2024/04/13 arXiv:2306.03460v1 zhufeizzz

以ChatGPT为代表的通用大语言模型(LLM)在软件工程中的代码生成等任务中表现出了巨大的潜力。这导致了软件工程专业 LLM (称为代码 LLM )的发展。相当一部分Code LLM是通过模型微调从普通LLM衍生出来的 ...

0 0 0 0 2024/04/11 arXiv:2311.10372v2 zhufeizzz

基准数据集对加速编程语言任务的研究具有重大影响。在本文中,我们介绍了 CodeXGLUE,这是一个基准数据集,用于促进程序理解和生成的机器学习研究。 CodeXGLUE 包括跨 14 个数据集的 10 项任务的集合以及用于模型评估和比较的平台 ...

0 0 0 0 2024/04/06 arXiv:2102.04664v2 zhufeizzz

在通过集成开发环境 (IDE) 进行的软件开发中,代码完成是最广泛使用的功能之一。然而,大多数集成开发环境仅支持方法和 API 或参数的完成。 在本文中,我们介绍了 IntelliCode Compose $-$ 一种通用的多语言代码完成工具,它能够预测任意类型的代码标记序列,生成最多整行语法正确的代码 ...

0 0 0 0 2024/04/06 arXiv:2005.08025v2 zhufeizzz

适当的代码评估指标(CEM)深刻影响代码生成的演变,这是自然语言处理和软件工程的一个重要研究领域。流行的基于匹配的 CEM(例如 ...

0 0 0 0 2024/04/06 arXiv:2301.09043v3 zhufeizzz

自从可以生成长表达式和语句而不是单个下一个标记的神经自然语言到代码模型(NL->Code)的兴起以来,主要问题之一是可靠地评估其生成的输出。在本文中,我们提出了 CodeBERTScore:一种基于 BERTScore 的代码生成评估指标(Zhang 等人,2020) ...

0 0 0 0 2024/04/06 arXiv:2302.05527v2 zhufeizzz

大型语言模型已显示出协助程序员生成代码的巨大潜力。对于这种人类-人工智能结对编程场景,我们凭经验证明,虽然生成的代码最常根据其功能正确性进行评估(即, ...

0 0 0 0 2024/04/06 arXiv:2210.16494v2 zhufeizzz

从自然语言描述(NL2Code)生成代码的任务被认为是代码智能领域的一项紧迫而重大的挑战。由于预训练技术的快速发展,越来越多的大型语言模型被提出用于代码,从而引发了 NL2Code 的进步。为了促进该领域的进一步研究和应用,在本文中,我们对 NL2Code 的 27 个现有大型语言模型进行了全面调查,并回顾了基准和指标 ...

0 0 0 0 2024/04/03 arXiv:2212.09420v2 zhufeizzz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)