单元测试生成已成为 LLM 的一个有前途且重要的用例。然而,现有的评估LLM单元测试生成能力的评估基准侧重于功能或类级代码,而不是更实用和更具挑战性的项目级代码库。为了解决这种限制,我们提出了 ProjectTest,这是一个用于生成单元测试的项目级基准,涵盖 Python、Java 和 JavaScript。 ProjectTest 每种语言有 20 个中等规模的高质量项目。我们在 ProjectTest 上对 9 个前沿 LLM 进行了评估,结果显示,所有测试的前沿 LLM 在 Python 和 Java 上的 ProjectTest 上都表现出中等的性能,凸显了 ProjectTest 的难度。我们还进行了彻底的错误分析,结果表明,即使是前沿的 LLM ,例如 Claude-3.5-Sonnet,也存在重大的基本但关键的错误,包括编译和级联错误。受这一观察的启发,我们进一步评估了手动错误修复和自我错误修复场景下的所有前沿 LLM ,以评估它们在配备错误修复机制时的潜力。我们的代码和数据集可在 \href{this https URL}{ProjectTest} 获取 ...
使用检索增强生成(RAG)从外部知识源检索相关信息使大型语言模型(LLM)能够回答有关私人和/或以前未见过的文档集合的问题。然而,RAG 无法解决针对整个文本语料库的全局问题,例如“数据集中的主题是什么?”,因为这本质上是一个以查询为中心的摘要 (QFS) 任务,而不是显式检索任务。与此同时,先前的 QFS 方法无法扩展到典型 RAG 系统索引的文本数量。为了结合这些对比方法的优点,我们提出了 GraphRAG,这是一种基于图的方法,用于在私人文本语料库上进行问答,该方法可根据用户问题的普遍性和源文本的数量进行扩展。我们的方法使用 LLM 分两个阶段构建图索引:首先,从源文档中导出实体知识图,然后为所有密切相关的实体组预先生成社区摘要。给定一个问题,每个社区摘要都用于生成部分响应,然后所有部分响应再次汇总为对用户的最终响应。对于 100 万个 token 范围内的数据集的一类全局意义构建问题,我们表明 GraphRAG 在生成答案的全面性和多样性方面比传统 RAG 基线有了显着改进 ...
问答是一项自然语言理解任务,涉及对显式上下文和未陈述的相关领域知识进行推理。尽管训练成本很高,大型语言模型(LLM)——大多数现代问答系统的支柱——仍然难以可靠地捕捉概念之间的微妙关系,而这些概念对于医学等专业领域的推理至关重要。在这项工作中,我们提出了 MEG,一种用于医学知识增强 LLM 的参数有效方法。 MEG 使用轻量级映射网络将知识图嵌入合并到 LLM 中,使其能够以经济高效的方式利用外部知识。我们在四个流行的医学多项选择数据集上评估了我们的方法,并表明 LLM i) 可以有效地解释知识图嵌入,ii) 从这些嵌入提供的事实基础中获得显着优势。与 BioMistral-7B 和 MediTron-7B 等专用模型相比,MEG 的平均准确度分别高出 +6.7% 和 +9.9%。最后,我们表明 MEG 的性能对于图编码器的选择仍然保持稳健 ...
强制对齐 (FA) 可预测语音中单词或字符的开始和结束时间戳,但现有方法是特定于语言的,并且容易出现累积时间偏移。语音大语言模型 (SLLM) 的多语言语音理解和长序列处理能力使其在多语言、跨语言和长格式语音环境中的 FA 中具有广阔的应用前景。然而,直接将 SLLM 的下一个 Token 预测范式应用于 FA 会导致幻觉和缓慢的推理。为了弥补这一差距,我们提出了 LLM-ForcedAligner,将 FA 重新表述为槽填充范例:时间戳被视为离散索引,特殊时间戳标记作为槽插入到转录本中。以语音嵌入和带有时隙的转录本为条件,SLLM 直接预测时隙处的时间索引。在训练期间,使用非移位输入和标签序列的因果注意掩蔽允许每个时隙基于其自身和之前的上下文来预测其自己的时间戳索引,并且仅在时隙位置计算损失。动态插槽插入可在任意位置实现 FA。此外,支持非自回归推理,避免幻觉并提高速度。跨多语言、跨语言和长篇语音场景的实验表明,与现有方法相比,LLM-ForcedAligner 的累积平均偏移相对减少了 69%~78%。检查点和推理代码将在稍后发布 ...
由于上下文窗口极长,长视频理解对视觉语言模型提出了重大挑战。现有的解决方案依赖于带有检索增强生成的朴素分块策略,通常会遭受信息碎片化和全局一致性丧失的困扰。我们提出了 HAVEN,这是一个用于长视频理解的统一框架,它通过将视听实体内聚性和分层视频索引与代理搜索相结合,实现连贯和全面的推理。首先,我们通过集成视觉和听觉流中的实体级表示来保持语义一致性,同时将内容组织成跨越全局摘要、场景、片段和实体级别的结构化层次结构。然后,我们采用代理搜索机制来实现跨这些层的动态检索和推理,从而促进连贯的叙述重建和细粒度的实体跟踪。大量实验表明,我们的方法实现了良好的时间连贯性、实体一致性和检索效率,在 LVBench 上建立了新的最先进技术,总体准确率为 84.1%。值得注意的是,它在挑战性推理类别中表现出色,达到了80.1%。这些结果凸显了结构化、多模态推理对于对长视频进行全面且上下文一致的理解的有效性 ...
大型语言模型 (LLM) 的水印提供了一种很有前途的方法来识别人工智能生成的文本。然而,现有的方法要么损害 LLM 原始生成文本的分发,要么仅限于嵌入仅允许水印检测但忽略识别的零位信息。我们提出了 StealthInk,一种隐秘的多位水印方案,它保留了原始文本分布,同时能够在 LLM 生成的文本中嵌入出处数据,例如 userID、TimeStamp 和 modelID。这增强了快速可追溯性,而无需访问语言模型的 API 或提示。我们得出了在固定的等错误率下水印检测所需的 Token 数量的下限,这为如何增强容量提供了见解。跨不同任务的综合实证评估突出了 StealthInk 的隐秘性、可检测性和弹性,使其成为 LLM 水印应用的有效解决方案 ...
在这项初步研究中,我们研究了一种 GPT 驱动的基于意图的推理方法,以简化旨在提高系统效率的大型语言模型 (LLM) 的工具选择。通过在运行时识别用户提示背后的意图,我们缩小了任务执行所需的 API 工具集的范围,从而将 Token 消耗减少了高达 24.6%。具有 100 多个 GPT-4-Turbo 节点的真实大规模并行 Copilot 平台的早期结果显示了成本降低和提高基于 LLM 的系统效率的潜力 ...
我们提出了一种通过 LLM 释义嵌入的难以察觉的多位文本水印。我们对一对设计为表现不同的 LLM 释义器进行微调,以便经过训练的解码器可以识别它们在文本语义中反映的释义差异。为了嵌入我们的多位水印,我们交替使用两个释义器在句子级别对预定义的二进制代码进行编码。然后我们使用文本分类器作为解码器来解码水印的每一位。通过大量的实验,我们表明我们的水印可以使用小型(1.1B)文本释义实现超过 99.99% 的检测 AUC,同时保留原始句子的语义信息。更重要的是,我们的管道在单词替换和句子释义扰动下非常强大,并且可以很好地推广到分布外数据。我们还通过基于 LLM 的评估来展示我们水印的隐蔽性。我们开源了代码:这个 https URL ...
由于参数规模不断增加和密集的数据移动,训练大型语言模型 (LLM) 对计算、内存容量和互连带宽提出了极高的要求。晶圆级集成通过密集集成多个单芯片芯片与高速芯片到芯片 (D2D) 互连,提供了一种有前景的解决方案。然而,有限的晶圆面积需要在计算、内存和通信资源之间进行权衡。充分利用晶圆级集成的潜力,同时减轻其架构限制,对于最大限度地提高 LLM 培训性能至关重要。这给架构和训练策略的协同优化带来了重大挑战。不幸的是,现有的方法都不足以应对这些挑战。为了弥补这一差距,我们提出了 WATOS,这是一个针对 LLM 培训策略和晶圆级架构的共同探索框架。我们首先定义一个高度可配置的硬件模板,旨在探索晶圆级芯片的最佳架构参数。在此基础上,我们利用晶圆级芯片固有的高D2D带宽和细粒度运算优势,探索最优的并行性和资源分配策略,有效解决LLM训练过程中内存利用率不足的问题。与最先进的 (SOTA) LLM 训练框架 Megatron 和 Cerebras 的权重流晶圆训练策略相比,WATOS 可以在各种 LLM 模型上分别实现平均总体吞吐量提高 2.74 倍和 1.53 倍。此外,我们利用 WATOS 通过 LLM 工作负载的训练来揭示有关晶圆级架构设计的有趣见解 ...
训练深度神经网络 (DNN) 的成本很高。幸运的是,Nvidia Ampere 和 Hopper GPU 通过实现 2:4 的稀疏性,可以将矩阵乘法的速度提高到相当于密集矩阵乘法的两倍。然而,之前基于STE的2:4预训练方法(例如具有硬阈值的STE、SR-STE)由于剪枝功能不连续而面临优化困难。在本研究中,我们全面分析了传统N:M稀疏训练的瓶颈,并认识到不连续性的三个缺点:错误的下降方向、无法预测下降量和稀疏掩模振荡。有鉴于此,我们提出了 S-STE,一种简单但强大的 2:4 训练方法,包含两个部分:连续将权重投影为 2:4 稀疏,并使用每个张量固定缩放因子重新缩放稀疏权重。此外,我们对激活梯度采用最小方差无偏估计,并对整个过程采用 FP8 量化。结果表明,我们的方法超越了之前的 2:4 预训练方案,甚至与全参数模型具有可比性。我们的工具包可通过此 https URL 获取 ...