zhufeizzz的文档

Does BLEU Score Work for Code Migration?

统计机器翻译（SMT）是计算语言学的一个快速发展的子领域。到目前为止，衡量 SMT 质量最流行的自动指标是双语评估学生 (BLEU) 分数。最近，SMT 与 BLEU 指标一起被应用于名为代码迁移的软件工程任务 ...

0 0 0 0 2024/08/14 arXiv:1906.04903v1 zhufeizzz

Large Language Models are not Fair Evaluators

我们发现采用大型语言模型（LLM）（例如 GPT-4）作为裁判对候选模型生成的响应质量进行评分的评估范式存在系统性偏差 ...

0 0 0 0 2024/08/05 arXiv:2305.17926v2 zhufeizzz

GPTScore: Evaluate as You Desire

生成人工智能（ai）使得复杂模型的开发成为可能，这些模型能够通过利用大型预训练模型生成高质量的文本、图像和其他输出。然而，评估一代人的质量是一项比一代人本身更为艰巨的任务，而这一问题近来还没有得到足够的重视。本文提出了一种新颖的评估框架 ...

0 0 0 0 2025/05/27 arXiv:2302.04166v2 zhufeizzz

Augmented Language Models: a Survey

最近调查回顾了通过推理技能和使用工具的能力增强语言模型（LM）的工作。之前被定义为将可能复杂的任务划分为更简单的子任务，而晚上则包括调用外部模块（例如代码解释）语言模型可以单独利用这些增强功能，也可以通过启发式方法组合利用这些增强功能，或者通过练习来学习如何实现这一点... ...

0 0 0 0 2025/01/26 arXiv:2302.07842v1 zhufeizzz

API Pack: A Massive Multi-Programming Language Dataset for API Call Generation

我们推出了 API Pack，这是一个多语言数据集，具有超过一百万个指令 API 调用对，旨在提高大型语言模型的 API 调用生成功能。通过实验，我们证明了 API Pack 在增强此专门任务的模型方面的功效，同时保持了一般编码的整体熟练程度。仅在 20,000 个 Python 实例上微调 CodeLlama-13B 的准确率就比 GPT-3 高 10% 和 5% 以上 ...

0 0 0 0 2024/06/04 arXiv:2402.09615v3 zhufeizzz

Dissecting the Runtime Performance of the Training, Fine-tuning, and Inference of Large Language Models

大型语言模型 (LLM) 在学术界和工业界都取得了巨大进步，其受欢迎程度导致了众多开源框架和技术的出现，用于加速 LLM 预训练、微调和推理。培训和部署 LLM 非常昂贵，因为它需要大量的计算资源和内存，因此已经开发了许多有效的方法来改进系统管道和操作员。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选择最佳配置变得困难 ...

0 0 0 0 2024/05/30 arXiv:2311.03687v2 zhufeizzz

API Pack: A Massive Multilingual Dataset for API Call Generation

我们推出了 API Pack，这是一个多语言数据集，具有超过一百万个指令 API 调用对，旨在提高大型语言模型的 API 调用生成功能。通过实验，我们证明了 API Pack 在增强此专门任务的模型方面的功效，同时保持了一般编码的整体熟练程度。仅在 20,000 个 Python 实例上微调 CodeLlama-13B 的准确率就比 GPT-3 高 10% 和 5% 以上 ...

0 0 0 0 2024/05/27 arXiv:2402.09615v2 zhufeizzz

API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

人们越来越需要大型语言模型 (LLM) 来有效地使用工具和外部应用程序编程接口 (API) 来计划和完成任务。因此，人们对能够获取足够数量的训练和测试数据（涉及工具/API 调用）的方法产生了极大的兴趣。两条研究路线已成为应对这一挑战的主要策略 ...

0 0 0 0 2024/05/27 arXiv:2402.15491v2 zhufeizzz

Data-centric Artificial Intelligence: A Survey

人工智能（AI）几乎在每个领域都产生着必然的影响。其取得巨大成功的一个重要推动因素是构建机器学习模型和丰富高质量的数据。近年来，数据在人工智能领域的发展作用被显着放大，催生了以数据为中心的人工智能这一新兴概念…… ...

0 0 0 0 2024/10/12 arXiv:2303.10158v3 zhufeizzz

CodeT5+: Open Code Large Language Models for Code Understanding and Generation

在大量源代码上进行预训练的大型语言模型（llm）在代码智能方面取得了显着进展。然而，llm在架构和预训练任务方面有两个主要限制。首先，它们通常采用特定的架构（仅编码器或仅解码器）或依赖统一的编码器-解码器网络来完成不同的下游任务... ...

0 0 0 0 2025/03/19 arXiv:2305.07922v2 zhufeizzz