海panda的文档

海panda

个性签名 ...

TDD-Bench Verified: Can LLMs Generate Tests for Issues Before They Get Resolved?

测试驱动开发（TDD）是先编写测试，然后编码的做法，TDD 的支持者阐述了它的众多好处。例如，给定源代码存储库上的问题，测试可以在任何人为商定的修复程序编写代码之前澄清利益相关者之间所需的行为。尽管针对“先编写代码，后测试”的做法，在自动化测试生成方面已经做了很多工作，但 TDD 的此类自动化却很少 ...

0 0 0 0 2025/01/21 arXiv:2412.02883v1 海panda

Towards an Understanding of Large Language Models in Software Engineering Tasks

大型语言模型（LLM）因其在文本生成和推理任务中的惊人表现而引起了广泛的关注和研究。 ChatGPT等衍生产品已得到广泛部署并备受追捧。同时，LLM在软件工程任务（例如代码生成）中的评估和优化已成为研究热点 ...

0 0 0 0 2025/01/13 arXiv:2308.11396v3 海panda

Compact Language Models via Pruning and Knowledge Distillation

目前，针对不同部署规模和规模的大型模型（LLM）是通过从头开始训练每个变体来语言生成的；这是真正计算密集型的。在本文中，我们研究了修剪现有的LLM，使用原始训练数据的一部分(<3%）由此进行重新训练是否可以作为重复、完全重新训练的合适替代方案。为此，我们为LLM开发了一套实用有效的压缩最佳实践，将深度、宽度、焦点和MLP剪枝与基于知识调整的再训练相结合；我们通过对每个轴的剪枝策略、组合轴的方法、调整策略以及用于实现最佳压缩架构的搜索技术进行详细最佳视角探索来总结这些实践...... ...

0 0 0 0 2024/09/30 arXiv:2407.14679v1 海panda

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

本文探讨了扩展输入长度对大型语言模型 (LLM) 功能的影响。尽管 LLM 近年来取得了进步，但它们在不同输入长度上的性能一致性尚不清楚。我们通过引入一种新颖的 QA 推理框架来研究这个方面，该框架专门用于评估输入长度的影响 ...

0 0 0 0 2024/04/19 arXiv:2402.14848v1 海panda

RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation

生成模型在软件工程中展现了巨大的潜力，特别是在代码生成和调试等任务中。然而，它们在代码文档生成领域的利用却得到了充分的探索。为此，引入了RepoAgent，这是一个大型语言模型驱动的框架，旨在主动生成、维护和更新代码文档... ...

0 0 0 0 2024/10/11 arXiv:2402.16667v1 海panda

Assured LLM-Based Software Engineering

在本文中，我们解决了以下问题：我们如何使用大型语言模型（LLM）独立于人类来改进代码，同时确保改进后的代码 - 不回归原始代码的属性？ - 以可验证和可衡量的方式改进原始版本？为了解决这个问题，我们提倡基于LLM的软件工程；受遗传改良启发的一种生成和测试方法。 Assured LLMSE 应用一系列语义过滤器，丢弃无法满足这些双重保证的代码。这克服了LLM产生幻觉倾向的潜在问题 ...

0 0 0 0 2024/04/08 arXiv:2402.04380v1 海panda

ChatGPT vs SBST: A Comparative Assessment of Unit Test Suite Generation

大型语言模型（LLM）的最新进展在广泛的一般领域任务（例如回答问题和遵循指令）中表现出了非凡的成功。此外，LLM在各种软件工程应用中表现出了增长的潜力。在本研究中，我们对ChatGPT LLM和最先进的SBST工具EvoSuite生成的测试套件进行了系统比较... ...

0 0 0 0 2024/11/20 arXiv:2307.00588v1 海panda

Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution

像思想链提示这样流行的提示策略可以显着提高各个领域的大型语言模型（LLM）的推理能力。然而，这种手工制定的提示策略通常不是最好的。在论文中，我们提出了Promptbreeder，这是一种通用的自我参考改进机制，可以针对给定领域发展和调整提示... ...

0 0 0 0 2024/12/13 arXiv:2309.16797v1 海panda