尽管大型语言模型的终端能力最近取得了快速进展,但最先进的终端代理背后的训练数据策略在很大程度上仍未公开。我们通过对终端代理的数据工程实践进行系统研究来解决这一差距,做出了两个关键贡献:(1)Terminal-Task-Gen,一种轻量级合成任务生成管道,支持基于种子和基于技能的任务构建;(2)对数据和训练策略的全面分析,包括过滤、课程学习、长上下文训练和扩展行为。我们的管道产生了 Terminal-Corpus,这是一个用于终端任务的大规模开源数据集。使用此数据集,我们训练 Nemotron-Terminal,这是从 Qwen3(8B、14B、32B)初始化的一系列模型,在 Terminal-Bench 2.0 上取得了显着的进步:Nemotron-Terminal-8B 从 2.5% 提高到 13.0%,Nemotron-Terminal-14B 从 4.0% 提高到 20.2%,Nemotron-Terminal-32B 从 3.4% 提高达到 27.4%,与更大型号的性能相当。为了加速该领域的研究,我们在此 https URL 开源了我们的模型检查点和大部分合成数据集 ...
传统的搜索引擎难以合成零散的信息以获取复杂的查询,而生成的AI搜索引擎面临着相关性,全面性和呈现方面的挑战。为了解决这些局限性,我们介绍了Xinyu AI搜索,这是一个新型系统,该系统结合了查询分解图,以动态地将复杂的查询分解为子征服,从而逐步检索和生成。我们的检索管道通过多源集合和查询扩展增强了多样性,同时过滤和重新排序策略优化了通过相关性 ...
材料科学和工程等领域应用领域应用的大型语言模型(LLM)的进步取决于制定适应专业技术能力的微调策略。在这项工作中,我们探讨了持续预处理(CPT),监督微调(SFT)以及各种基于偏好的优化方法,包括直接偏好优化(DPO)和优势比偏好优化(ORPO)对微型LLM绩效的影响。我们的分析表明,这些策略如何影响模型的结果,并揭示了多个微调模型的合并可以导致超过父模型的个人贡献的能力的出现 ...
本文提出了一种自动推理技术,用于检查用Cypher编写的图形数据库查询与SQL中的关系查询之间的等效性。为了在这种情况下形式化适当的等价概念,我们介绍了数据库 Transformer 的概念,该概念在图和关系模型之间转换数据库实例。然后,我们提出了一种新颖的验证方法,该方法可以通过减少原始问题来验证一对SQL查询之间的等效性来检查给定的 Transformer ...
Graph检索效果生成(GraphRag)已成为具有外部知识增强大型语言模型(LLM)的强大范式。它利用图形来对特定概念之间的层次结构进行建模,从而使更连贯和有效的知识检索能够准确地进行此HTTP URL的概念上的承诺,最近的研究报告说,GraphRag经常在许多现实世界任务上表现不佳。这提出了一个关键的问题:GraphRag真的有效吗?在哪些情况下,图形结构为抹布系统提供了可衡量的好处?为了解决这个问题,我们提出了GraphRag-Bench,这是一个综合基准测试,旨在评估GraphRag模型的分层知识检索和深层上下文推理 ...
大型语言模型(LLM)的微调通常需要大量的高质量监督数据,这既昂贵又富有劳动力的收购。尽管合成数据的生成已经成为有前途的解决方案,但现有的方法经常遭受事实不准确,长尾覆盖不足,简单知识结构和均质输出的影响。为了应对这些挑战,我们介绍了GraphGen,这是一个知识图指导的框架,专为三个关键的问题避开(QA)方案:原子QA,汇总QA和多跳QA ...
大型语言模型(LLM)在熟悉的查询上表现良好,但在专业或新兴主题中挣扎。基于图的检索效果生成(GraphRag)通过将域知识作为动态检索的图表来解决这一问题。但是,现有的管道涉及复杂的工程工作流程,因此很难隔离单个组件的影响 ...
大型语言模型(LLM)显示出在解决数学推理问题方面的能力增加。但是,在中间推理步骤中,许多开源LLM仍在计算和语义理解方面的错误中困难。在这项工作中,我们介绍了一个简单而有效的框架,该框架利用自然语言解决方案派生的翻译程序作为验证机制,以在汇总最终答案之前过滤掉潜在的不正确的推理路径 ...
通过增强学习(RL)培训大型语言模型,以实现可验证的奖励,可以显着提高其推理能力,但由于效率低下的均匀及时采样,因此在计算上仍然昂贵。我们介绍了选择性提示,并有效地估计了难度(速度),这是一种自适应在线RL课程,有选择地选择中级难度的培训示例以最大程度地提高学习效率。从理论上讲,我们确定中等缺陷的提示可以改善梯度估计器的信噪比,加速收敛 ...
人类偏好数据的质量对于培训和评估大型语言模型(LLM)至关重要,尤其是在从人类反馈(RLHF)和直接偏好优化(DPO)方案中学习的强化学习中。传统的并排(SBS)注释方法通常会在固有的不确定性,注释者分歧和偏好判断的复杂性上挣扎。本文介绍了一个基于直觉模糊集(IFS)的新框架,用于建模和汇总LLM数据注释任务中的人类偏好 ...