15966829631的文档

15966829631

个性签名 ...

You Augment Me: Exploring ChatGPT-based Data Augmentation for Semantic Code Search

代码搜索在软件开发中发挥着至关重要的作用，使开发人员能够使用自然语言查询检索和重用代码。虽然代码搜索模型的性能随着高质量数据的增加而提高，但获取此类数据可能具有挑战性且成本高昂。最近，ChatGPT 等大型语言模型 (LLM) 在自然语言和编程语言理解和生成方面都取得了显着进展，通过简单的提示提供了用户友好的交互 ...

0 0 0 0 2025/01/20 arXiv:2408.05542v2 15966829631

REINFOREST: Reinforcing Semantic Code Similarity for Cross-Lingual Code Search Models

本文介绍了一种新颖的代码到代码搜索技术，该技术通过包含静态和动态特征以及在训练期间利用相似和不相似的示例来增强大型语言模型（LLM）的性能。我们提出了第一个代码搜索方法，该方法在训练期间对动态运行时信息进行编码，而无需在推理时执行搜索语料库或搜索查询，以及第一个在正参考样本和负参考样本上进行训练的代码搜索技术。为了验证我们方法的有效性，我们进行了一系列研究，证明增强型 LLM 执行跨语言代码到代码搜索的能力 ...

0 0 0 0 2025/01/20 arXiv:2305.03843v2 15966829631

Enhancing Code Translation in Language Models with Few-Shot Learning via Retrieval-Augmented Generation

大语言模型 (LLM) 的出现极大地推进了代码翻译领域的发展，实现了编程语言之间的自动翻译。然而，由于上下文理解不足，这些模型常常难以应对复杂的翻译任务。本文介绍了一种通过少样本学习（Few-Shot Learning）增强代码翻译的新颖方法，并通过基于检索的技术进行增强 ...

0 0 0 0 2025/01/17 arXiv:2407.19619v1 15966829631

CodeQA: A Question Answering Dataset for Source Code Comprehension

我们提出了 CodeQA，一个用于源代码理解的自由格式问答数据集：给定代码片段和问题，需要生成文本答案。 CodeQA 包含一个包含 119,778 个问答对的 Java 数据集和一个包含 70,085 个问答对的 Python 数据集。为了获得自然、忠实的问题和答案，我们实施句法规则和语义分析，将代码注释转换为问答对 ...

0 0 0 0 2025/01/17 arXiv:2109.08365v1 15966829631

ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search

基于检索的代码问答旨在将自然语言中的用户查询与相关代码片段进行匹配。以前的方法通常依赖于使用精心设计的双模态和单模态数据集来对齐文本和代码表示的预训练模型。在本文中，我们介绍了 ProCQA，这是一个从 StackOverflow 社区提取的大规模编程问答数据集，提供自然结构化的混合模式 QA 对 ...

0 1 0 0 2025/01/17 arXiv:2403.16702v1 15966829631

LLM Agents Improve Semantic Code Search

代码搜索是许多程序员在开发问题解决方案时经常必须执行的一项关键任务。当前的方法无法准确地执行包含一些歧义的提示或需要与代码库相关的附加上下文的提示。我们介绍了使用检索增强生成（RAG）驱动的代理将信息注入用户提示的方法，以便更好地输入嵌入模型 ...

0 0 0 0 2025/01/17 arXiv:2408.11058v1 15966829631

Isotropy Matters: Soft-ZCA Whitening of Embeddings for Semantic Code Search

嵌入空间中的低各向同性会损害涉及语义推理的任务的性能。我们的研究调查了各向同性对语义代码搜索性能的影响，并探索了后处理技术来缓解这个问题。我们分析各种代码语言模型，检查其嵌入空间中的各向同性及其对搜索有效性的影响 ...

0 0 0 0 2025/01/17 arXiv:2411.17538v2 15966829631

EvoPrompting: Language Models for Code-Level Neural Architecture Search

鉴于最近用于代码生成的语言模型 (LM) 取得了令人印象深刻的成就，我们探索使用 LM 作为进化神经架构搜索 (NAS) 算法的自适应变异和交叉算子。虽然 NAS 对于 LM 来说仍然是一项过于困难的任务，仅通过提示无法成功，但我们发现，进化提示工程与软提示调整（我们称之为 EvoPrompting 的方法）的结合，始终能够找到多样化且高性能的模型。我们首先证明 EvoPrompting 在计算效率高的 MNIST-1D 数据集上是有效的，其中 EvoPrompting 生成的卷积架构变体在准确性和模型大小方面优于人类专家设计的架构和简单的少样本提示 ...

0 0 0 0 2025/01/17 arXiv:2302.14838v3 15966829631

CoSQA: 20,000+ Web Queries for Code Search and Question Answering

在给定自然语言查询的情况下查找代码对于软件开发人员的生产力很有帮助。查询和代码之间更好的语义匹配的未来进展需要更丰富的监督训练资源。为了解决这个问题，我们引入了 CoSQA，该 http URL 包含 20,604 个自然语言查询和代码对的标签，每个标签由至少 3 个人类注释者进行注释 ...

0 0 0 0 2025/01/17 arXiv:2105.13239v1 15966829631

ELI5: Long Form Question Answering

我们引入了第一个用于长式问答的大型语料库，这是一项需要对开放式问题进行详细而深入的回答的任务。该数据集包含来自 Reddit 论坛“像我五岁一样解释”(ELI5) 的 27 万个线程，其中在线社区提供了五岁孩子可以理解的问题的答案。与现有数据集相比，ELI5 包含需要多句答案的多样化问题 ...

0 0 0 0 2025/01/17 arXiv:1907.09190v1 15966829631