这项调查回顾了通过推理技能和使用工具的能力增强语言模型 (LM) 的工作。前者被定义为将潜在复杂的任务分解为更简单的子任务,而后者则包括调用外部模块(例如代码解释器)。语言模型可以单独利用这些增强功能,也可以通过启发式方法组合利用这些增强功能,或者通过演示来学习如何做到这一点 ...

0 0 0 0 2024/06/06 arXiv:2302.07842v1 zhufeizzz

我们推出了 API Pack,这是一个多语言数据集,具有超过一百万个指令 API 调用对,旨在提高大型语言模型的 API 调用生成功能。通过实验,我们证明了 API Pack 在增强此专门任务的模型方面的功效,同时保持了一般编码的整体熟练程度。仅在 20,000 个 Python 实例上微调 CodeLlama-13B 的准确率就比 GPT-3 高 10% 和 5% 以上 ...

0 0 0 0 2024/06/04 arXiv:2402.09615v3 zhufeizzz

大型语言模型 (LLM) 在学术界和工业界都取得了巨大进步,其受欢迎程度导致了众多开源框架和技术的出现,用于加速 LLM 预训练、微调和推理。培训和部署 LLM 非常昂贵,因为它需要大量的计算资源和内存,因此已经开发了许多有效的方法来改进系统管道和操作员。然而,不同硬件和软件堆栈的运行时性能可能存在很大差异,这使得选择最佳配置变得困难 ...

0 0 0 0 2024/05/30 arXiv:2311.03687v2 zhufeizzz

我们推出了 API Pack,这是一个多语言数据集,具有超过一百万个指令 API 调用对,旨在提高大型语言模型的 API 调用生成功能。通过实验,我们证明了 API Pack 在增强此专门任务的模型方面的功效,同时保持了一般编码的整体熟练程度。仅在 20,000 个 Python 实例上微调 CodeLlama-13B 的准确率就比 GPT-3 高 10% 和 5% 以上 ...

0 0 0 0 2024/05/27 arXiv:2402.09615v2 zhufeizzz

人们越来越需要大型语言模型 (LLM) 来有效地使用工具和外部应用程序编程接口 (API) 来计划和完成任务。因此,人们对能够获取足够数量的训练和测试数据(涉及工具/API 调用)的方法产生了极大的兴趣。两条研究路线已成为应对这一挑战的主要策略 ...

0 0 0 0 2024/05/27 arXiv:2402.15491v2 zhufeizzz

人工智能(AI)几乎在每个领域都产生着深远的影响。其取得巨大成功的一个重要推动因素是用于构建机器学习模型的丰富且高质量的数据。近年来,数据在人工智能中的作用被显着放大,催生了以数据为中心的人工智能这一新兴概念 ...

0 0 0 0 2024/04/26 arXiv:2303.10158v3 zhufeizzz

在大量源代码上进行预训练的大型语言模型 (LLM) 在代码智能方面取得了显着进展。然而,现有的代码 LLM 在架构和预训练任务方面有两个主要限制。首先,它们通常采用特定的架构(仅编码器或仅解码器)或依赖统一的编码器-解码器网络来完成不同的下游任务 ...

0 0 0 0 2024/04/25 arXiv:2305.07922v2 zhufeizzz

我们发布了 Code Llama,这是一个基于 Llama 2 的大型代码语言模型系列,在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力中提供了最先进的性能。我们提供多种风格来覆盖广泛的应用程序:基础模型 (Code Llama)、Python 专业化 (Code Llama - Python) 和指令跟随模型 (Code Llama - Instruct),每个模型都有 7B、13B、34B 和 70B 参数。所有模型均在 16k 个标记序列上进行训练,并在最多 100k 个标记的输入上显示出改进 ...

0 0 1 6 2024/04/23 arXiv:2308.12950v3 zhufeizzz

BigCode 社区是一个致力于代码大型语言模型(Code LLM)负责任开发的开放式科学合作组织,推出了 StarCoder 和 StarCoderBase:具有 8K 上下文长度、填充功能和通过多个支持的快速大批量推理的 15.5B 参数模型。 -询问关注。 StarCoderBase 使用来自 The Stack 的 1 万亿个 Token 进行训练,The Stack 是大量经过许可许可的 GitHub 存储库,具有检查工具和选择退出流程 ...

0 0 0 0 2024/04/17 arXiv:2305.06161v2 zhufeizzz

程序综合致力于生成计算机程序作为给定问题规范的解决方案,用输入输出示例或自然语言描述来表达。大型语言模型的盛行推动了程序合成的最先进水平,尽管有限的培训资源和数据阻碍了对此类模型的开放访问。为了实现这一点的民主化,我们训练并发布了一系列最多 16 个的大型语言模型 ...

0 0 0 0 2024/04/14 arXiv:2203.13474v5 zhufeizzz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)