ChatGPT 等生成式预训练语言模型 (GPLM) 会在模型在预训练阶段观察到的模型参数知识中进行编码。然后使用这些知识进行推理,以解决用户在提示中指定的任务。例如,对于问答任务,GPLM 利用在训练中学到的知识和语言模式来生成用户问题的答案 ...

0 0 0 0 2024/12/23 arXiv:2302.13793v1 15966829631

长式问答 (LFQA) 旨在通过详细的段落长度回答来回答复杂的开放式问题。 LFQA 的事实范式需要两个过程:信息检索(搜索相关支持事实)和信息合成(将这些事实整合为连贯的答案)。在本文中,我们介绍了第一个中国 LFQA 数据集 WebCPM ...

0 0 0 0 2024/12/23 arXiv:2305.06849v2 15966829631

词汇匹配仍然是开放域问答(QA)事实上的评估方法。不幸的是,当合理的候选答案没有出现在黄金答案列表中时,词汇匹配就会完全失败,随着我们从提取模型转向生成模型,这种情况越来越多。最近用于 QA 的大型语言模型 (LLM) 的成功加剧了词汇匹配失败,因为候选答案变得更长,从而使与黄金答案的匹配变得更具挑战性 ...

0 0 0 0 2024/12/20 arXiv:2305.06984v3 15966829631

长格式问答(LFQA)可以回答广泛的问题,但其灵活性给评估带来了巨大的挑战。我们对长格式答案的评估进行了首次有针对性的研究,涵盖人工和自动评估实践。我们聘请了七个领域的领域专家来提供对答案对的偏好判断,以及他们选择的自由形式的理由 ...

0 0 0 0 2024/12/20 arXiv:2305.18201v1 15966829631

在大型程序语料库上进行预训练的代码生成模型在将自然语言翻译为代码方面取得了巨大成功(Chen 等人,2021;Austin 等人,2021;Li 等人 ...

0 0 0 0 2024/12/11 arXiv:2204.11454v2 15966829631

静态分析是检查代码而不执行代码的过程,对于识别软件问题至关重要。然而,静态分析因其复杂性和针对不同目标进行定制的需要而受到阻碍。传统的静态分析工具需要大量的人力,并且通常仅限于特定的目标程序和编程语言 ...

0 0 0 0 2024/11/21 arXiv:2312.08477v1 15966829631

确保正确性对于代码生成至关重要。形式验证提供了正确性的明确保证,但需要大量的人力来构建证明,因此迫切需要自动化。主要障碍在于严重缺乏数据——可供 LLM 训练的证据远少于代码 ...

0 0 0 0 2024/11/21 arXiv:2410.15756v1 15966829631

最近的研究提出利用大型语言模型 (LLM) 和上下文学习 (ICL) 来处理代码智能任务,而无需进行微调。 ICL 采用任务指令和一组示例作为演示,指导模型在不更新参数的情况下生成准确的答案。虽然 ICL 已被证明对于代码智能任务有效,但其性能在很大程度上依赖于所选的示例 ...

0 1 0 0 2024/11/21 arXiv:2410.11300v1 15966829631

大型语言模型(LLM)最近在代码生成方面取得了令人印象深刻的性能,为程序员在软件开发方面提供了革命性的帮助。然而,由于 LLM 的自回归性质,它们很容易在代码生成过程中受到错误累积的影响。一旦产生错误, LLM 只能继续生成以此为条件的后续代码,因为他们无法调整先前的输出 ...

0 0 0 0 2024/11/21 arXiv:2411.07112v1 15966829631

大型语言模型(LLM)在代码生成方面取得了令人印象深刻的性能。尽管之前的研究通过提示技术和代码细化增强了 LLM ,但由于严格的解决方案计划,他们仍然难以解决复杂的编程问题。在本文中,我们利用结对编程实践提出了 PairCoder,一种基于 LLM 的新型代码生成框架 ...

0 0 0 0 2024/11/20 arXiv:2409.05001v1 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)