指令微调是利用大型语言模型 (LLM) 来增强任务性能的关键进步。然而,指令数据集的注释传统上是昂贵且费力的,通常依赖于手动注释或专有 LLM 的昂贵的 API 调用。为了应对这些挑战,我们引入了 FANNO,这是一个完全自主的开源框架,它彻底改变了注释过程,而无需预先存在的注释数据。 FANNO 利用 Mistral-7b-instruct 模型,通过涉及文档预筛选、指令生成和响应生成的结构化流程,高效生成多样化且高质量的数据集。 Open LLM Leaderboard 和 AlpacaEval 基准测试表明,FANNO 可以免费生成具有多样性和复杂性的高质量数据,可与人工注释或清理的数据集(如 Alpaca-GPT4-Cleaned)相媲美 ...

0 0 0 0 2026/02/27 arXiv:2408.01323v1 bage

LLM-as-a-Judge已被广泛采用作为一种评估方法,并作为模型训练中的监督奖励。然而,LLM法官的现有基准主要依赖于人类注释的基本事实,这引入了人为偏见,破坏了可靠性评估并施加了可扩展性限制。为了克服这些限制,我们引入了 Sage,这是一种新颖的评估套件,可以评估 LLM 法官的质量,而无需任何人工注释。受理性选择理论公理的启发,Sage 引入了两个新的视角来衡量 LLM 作为法官:局部自我一致性(成对偏好稳定性)和全局逻辑一致性(跨全套偏好的传递性)。我们通过将结构化基准问题与现实世界的用户查询相结合,整理了包含 650 个问题的数据集。我们的实验证明了我们指标的稳定性及其与 LLMBar 和 RewardBench2 等监督基准的高度相关性,证实了 Sage 作为 LLM 作为法官的稳健性和准确性评估套件的可靠性。基于 Sage,我们发现当前最先进的 LLM 在评分和成对环境中担任评委时表现出严重的可靠性问题;即使是表现最好的模型 Gemini-2.5-Pro 和 GPT-5,在近四分之一的困难情况下也无法保持一致的偏好。我们将此归因于一种称为情境偏好的新现象,这解释了为什么明确的评分标准或标准可以帮助模型在答案对之间做出一致的判断。我们的进一步分析表明,微调LLM作为法官是一种提高绩效的可行方法,基于小组的法官以及深度推理可以增强法官的判断一致性。我们还发现人类判断存在很大的不一致,这表明人类注释可能不是可靠的黄金标准 ...

0 0 0 0 2026/01/27 arXiv:2512.16041v1 bage

随着大型语言模型(LLM)的快速发展和强大的泛化能力,它们越来越多地作为注释器纳入主动学习流程中,以降低注释成本。然而,考虑到注释质量, LLM 生成的标签往往达不到现实世界的适用性。为了解决这个问题,我们提出了一种新颖的主动学习框架,即 Loop Active Learning 中的 LLM 混合,用基于 LLM 混合的注释模型生成的标签替换人类注释者,旨在通过聚合多个 LLM 的优势来增强基于 LLM 的注释的鲁棒性。为了进一步减轻噪声标签的影响,我们引入了注释差异和负学习来识别不可靠的注释并提高学习效率。大量实验表明,我们的框架实现了与人类注释相当的性能,并且始终优于单一 LLM 基线和其他基于 LLM 集成的方法。此外,我们的框架建立在轻量级 LLM 的基础上,使其能够在实际应用程序中的本地计算机上完全运行 ...

0 0 0 0 2026/01/26 arXiv:2601.15773v1 bage

随着大型语言模型的发展,他们遵循简单指令的能力得到了显着提高。然而,遵守复杂的指示仍然是一个重大挑战。当前生成复杂指令的方法通常与当前的指令要求无关,或者受到可扩展性和多样性的限制。此外,诸如反向翻译之类的方法虽然对于简单的指令生成有效,但无法利用大型网络语料库中丰富的内容和结构。在本文中,我们提出了一种新颖的自动迭代细化框架来生成带有约束的复杂指令,它不仅更好地反映了真实场景的要求,而且显着增强了 LLM 遵循复杂指令的能力。 AIR框架由两个阶段组成:(1)从文档生成初始指令; (2)通过将模型的输出与文档进行比较,以纳入有价值的约束,以 LLM 作为法官的指导迭代地完善指令。最后,我们使用 10K 复杂指令构建 AIR-10K 数据集,并证明使用我们的方法生成的指令显着提高了模型遵循复杂指令的能力,优于现有的指令生成方法 ...

0 0 0 0 2026/01/23 arXiv:2502.17787v2 bage

我们在严格的黑盒、零样本和有限数据条件下探索了一种新的语言模型反演问题。我们提出了一种新颖的免训练框架,仅使用语言模型中有限数量的文本输出来重建提示。现有的方法依赖于大量输出的可用性来进行训练和推理,这种假设在现实世界中是不现实的,并且有时会产生乱码文本。相比之下,我们的方法依赖有限的资源,始终产生连贯且语义有意义的提示。我们的框架利用大型语言模型以及受遗传算法启发的优化过程来有效地恢复提示。对来自公共来源的几个数据集的实验结果表明,我们的方法实现了高质量的提示恢复,并且生成的提示在语义和功能上比当前最先进的方法更与原始数据一致。此外,引入的用例研究表明该方法在根据扰动的提示生成高质量文本数据方面具有强大的潜力 ...

0 0 0 0 2025/12/23 arXiv:2411.06729v3 bage

本文介绍了分解需求遵循率 (DRFR),这是一种用于评估大型语言模型 (LLM) 遵循指令的能力的新指标。为了解决当前方法论中的差距,DRFR 将复杂的指令分解为更简单的标准,有助于详细分析 LLM 对任务各个方面的遵守情况。除了这个指标之外,我们还推出了 InFoBench,这是一个基准测试,包含 500 条不同的指令和 2,250 个跨多个约束类别的分解问题。我们的实验将 DRFR 与传统评分方法进行比较,并探索注释来源,包括人类专家、众包工作人员和 GPT-4。研究结果证明了 DRFR 具有更高的可靠性以及使用 GPT-4 作为经济高效的注释器的有效性。使用该框架对几个高级 LLM 进行的评估揭示了他们的优势和需要改进的领域,特别是在复杂的指令遵循方面。这项研究提供了一个新颖的指标和基准,为未来 LLM 的发展和评估提供了见解 ...

0 0 0 0 2025/12/23 arXiv:2401.03601v1 bage

语言模型通常很难遵循对现实应用程序至关重要的多约束指令。现有的强化学习(RL)方法受到对外部监督的依赖和来自多约束任务的稀疏奖励信号的困扰。我们提出了一种无标签的自监督强化学习框架,该框架通过直接从指令导出奖励信号并生成用于奖励模型训练的伪标签来消除对外部监督的依赖。我们的方法引入了约束分解策略和有效的约束方式二元分类,以解决稀疏奖励挑战,同时保持计算效率。实验表明,我们的方法具有良好的泛化性,在 3 个域内和 5 个域外数据集上实现了强大的改进,包括具有挑战性的代理和多轮指令跟踪。数据和代码可在此 https URL 公开获取 ...

0 0 0 0 2025/12/22 arXiv:2510.14420v1 bage

大型语言模型 (LLM) 遵循指令的能力对于实际应用至关重要。尽管最近取得了进展,但一些研究强调, LLM 在面临具有挑战性的指令时会陷入困境,尤其是那些包含复杂约束的指令,从而阻碍了他们在各种任务中的有效性。为了应对这一挑战,我们引入了 Conifer,这是一种新颖的指令调整数据集,旨在增强 LLM 遵循具有复杂约束的多级指令。利用 GPT-4,我们通过一系列 LLM 驱动的细化流程来管理数据集,以确保高质量。我们还提出了一种渐进式学习方案,强调从易到难的进展,并从过程反馈中学习。使用 Conifer 训练的模型在指令跟踪能力方面表现出显着的提高,特别是对于具有复杂约束的指令。在多个指令跟踪基准测试中,我们的 7B 模型优于最先进的开源 7B 模型,甚至在某些指标上超过了大模型 10 倍的性能。所有代码和 Conifer 数据集均可在此 https URL 中获取 ...

0 1 0 0 2025/12/22 arXiv:2404.02823v1 bage

大型语言模型 (LLM) 在指令遵循方面表现出了卓越的能力,在各种应用程序中变得越来越重要。然而,这种功能带来了即时注入攻击的风险,攻击者将指令注入 LLM 的输入中以引发不良行为或内容。了解 LLM 抵御此类攻击的稳健性对于其安全实施至关重要。在这项工作中,我们建立了一个基准来评估指令跟随 LLM 针对即时注入攻击的鲁棒性。我们的目标是确定 LLM 受注入指令影响的程度以及它们区分这些注入指令和原始目标指令的能力。通过对领先的指令遵循 LLM 进行广泛的实验,我们发现了它们对此类攻击的鲁棒性的重大漏洞。我们的结果表明,某些模型过度调整以遵循提示中的任何嵌入指令,过度关注提示的后半部分,而没有完全掌握整个上下文。相比之下,更好地掌握上下文和指令跟踪能力的模型可能更容易受到注入指令的影响。这强调需要将重点从仅仅增强 LLM 的指令遵循能力转移到提高他们对提示的整体理解和对适合遵循的指令的辨别力。我们希望我们的深入分析能够深入了解这些漏洞的根本原因,有助于开发未来的解决方案。代码和数据可在此 https URL 获取 ...

0 0 0 0 2025/12/17 arXiv:2308.10819v3 bage

大型语言模型 (LLM) 的一项核心功能是遵循自然语言指令。然而,在无需手动注释的情况下自动构建高质量训练数据以增强 LLM 复杂的指令跟踪能力的问题仍未解决。在本文中,我们介绍了 AutoIF,这是第一个用于自动生成指令跟踪训练数据的可扩展且可靠的方法。 AutoIF将指令跟随数据质量的验证转化为代码验证,要求LLM生成指令,生成相应的代码来检查指令响应的正确性,并通过单元测试样本来验证代码的正确性。然后,基于执行反馈的拒绝采样可以生成用于监督微调(SFT)和人类反馈强化学习(RLHF)训练的数据。当 AutoIF 在自对准和强到弱蒸馏设置中应用于顶级开源 LLM Qwen2 和 LLaMA3 时,在 SFT、离线 DPO 和在线 DPO 三种训练算法上实现了显着改进。我们的代码可通过此 https URL 公开获取 ...

0 1 0 0 2025/12/10 arXiv:2406.13542v3 bage