大型语言模型 (LLM) 经常表现出幻觉,生成看似流畅、连贯但实际上不正确的内容。此类错误会破坏信任并阻碍其在实际应用中的采用。为了应对这一挑战,出现了两种不同的研究范式:以模型为中心的幻觉检测(HD)和以文本为中心的事实验证(FV)。尽管有着相同的目标,但这些范式是使用不同的假设、数据集和评估协议独立发展的。这种分离造成了研究分裂,阻碍了他们的集体进步。在这项工作中,我们朝着弥合这一鸿沟迈出了决定性的一步。我们推出了 UniFact,这是一个统一的评估框架,通过动态生成模型输出和相应的事实标签,可以在 FV 和 HD 之间进行直接的实例级比较。通过跨多个 LLM 系列和检测方法的大规模实验,我们揭示了三个关键发现:(1)没有任何范式是普遍优越的; (2) HD 和 FV 捕捉事实错误的互补方面; (3) 集成两种方法的混合方法始终能够实现最先进的性能。除了基准测试之外,我们还首次深入分析了 FV 和 HD 差异的原因,以及支持它们统一的必要性的经验证据。全面的实验结果需要一个新的、综合的研究议程,以统一 LLM 中的幻觉检测和事实验证。我们已在以下位置开源了所有代码、数据和基线实现:此 https URL ...
大型语言模型(LLM)经常产生流畅但实际上不正确的陈述——这种现象被称为幻觉——在高风险领域构成严重风险。我们提出了逐层语义动力学(LSD),这是一种用于幻觉检测的几何框架,用于分析跨 Transformer 层的隐藏状态语义的演变。与依赖多次采样或外部验证源的现有方法不同,LSD 本质上是在模型的表征空间内运行。使用基于边距的对比学习,LSD 将隐藏激活与源自事实编码器的真实嵌入对齐,揭示语义轨迹中的明显分离:事实响应保持稳定的对齐,而幻觉在深度上表现出明显的语义漂移。在 TruthfulQA 和合成事实幻觉数据集上进行评估,LSD 的 F1 分数为 0.92,AUROC 为 0.96,聚类准确度为 0.89,优于 SelfCheckGPT 和语义熵基线,同时只需要一次前向传递。与基于采样的方法相比,这种效率可实现 5-20 倍的加速,而不会牺牲精度或可解释性。 LSD 为实时幻觉监控提供了一种可扩展的、与模型无关的机制,并为大型语言模型中事实一致性的几何结构提供了新的见解 ...
基于 Transformer 的语言模型在自然语言生成 (NLG) 方面取得了最先进的性能,但其合成任务相关信息的内部机制仍不清楚。虽然之前的研究表明中间层通常比最终层产生更通用的表示,但这种泛化能力在训练过程中如何出现并跨层传播仍不清楚。为了解决这一差距,我们提出了 InfoRidge,一种信息理论框架,用于描述预测信息(隐藏表示和目标输出之间的互信息)如何随深度变化。估计这个数量使我们能够在训练期间跟踪整个模型中与任务相关的信息流。我们对各种模型和数据集的实验揭示了一致的非单调趋势:预测信息在中上层达到峰值,形成泛化脊,然后在最后层下降,反映了泛化和记忆之间的过渡。为了进一步研究这种现象,我们引入了残差缩放系数(应用于每个残差块的可训练标量参数),用作评估各个 Transformer 层的相对重要性的功能探针。这些系数表明,在分布变化的情况下,模型会降低最终层的权重并越来越依赖中间层,突出了它们在泛化中的作用。总之,这些发现为 Transformer 的内部机制提供了新的见解,并强调了中间层在支持泛化方面的关键作用 ...
动力系统理论提供了一个分析迭代过程和随时间演化的框架。在此类系统中,重复变换可以产生稳定的配置,称为吸引子,包括不动点和极限环。将此观点应用于大型语言模型(LLM),该模型迭代地将输入文本映射到输出文本,为表征长期行为提供了一种原则性方法。连续的释义是探索这种动态的一个令人信服的测试平台,因为释义通过语言变化重新表达了相同的潜在含义。尽管 LLM 预计会在文本空间中探索各种不同的释义,但我们的研究表明,连续的释义会收敛到稳定的周期状态,例如 2 周期吸引子周期,从而限制了语言多样性。这种现象归因于 LLM 的自我强化性质,因为它们反复偏爱和放大某些文本形式而不是其他文本形式。这种模式随着生成随机性的增加或提示和 LLM 的交替而持续存在。这些发现强调了 LLM 生成能力的固有限制,同时为研究其表达潜力提供了一种新颖的动力系统视角 ...
大型语言模型 (LLM) 通过编码大量事实知识,在各种任务中表现出了卓越的性能。然而,他们仍然容易产生幻觉,产生不正确或误导性的信息,往往伴随着高度的不确定性。现有的幻觉检测方法主要侧重于量化内部不确定性,这种不确定性是由模型内知识缺失或冲突引起的。然而,幻觉也可能源于外部不确定性,模糊的用户查询会导致多种可能的解释。在这项工作中,我们介绍了语义量,这是一种用于量化 LLM 外部和内部不确定性的新颖数学测量方法。我们的方法扰乱查询和响应,将它们嵌入到语义空间中,并计算嵌入向量的格拉姆矩阵行列式,捕获它们的离散度作为不确定性的度量。我们的框架提供了一种可推广且无监督的不确定性检测方法,无需内部访问 LLM 。我们对外部和内部不确定性检测进行了广泛的实验,证明我们的语义体积方法在这两项任务中始终优于现有基线。此外,我们提供了将我们的测量与微分熵联系起来的理论见解,统一并扩展了先前基于采样的不确定性测量(例如语义熵)。语义卷被证明是一种稳健且可解释的方法,通过系统地检测用户查询和模型响应中的不确定性来提高 LLM 的可靠性 ...
动态检索增强生成(RAG)范式主动决定在大型语言模型(LLM)的文本生成过程中检索何时以及检索什么。该范例有两个关键要素:确定激活检索模块的最佳时刻(决定何时检索)以及在触发检索后制定适当的查询(确定检索什么)。然而,当前的动态 RAG 方法在这两方面都存在不足。首先,决定何时检索的策略通常依赖于静态规则。此外,决定检索内容的策略通常仅限于 LLM 最近的句子或最后几个标记,而 LLM 的实时信息需求可能跨越整个上下文。为了克服这些限制,我们引入了一个新的框架,DRAGIN,即基于 LLM 实时信息需求的动态检索增强生成。我们的框架专门设计用于根据 LLM 在文本生成过程中的实时信息需求来决定检索的时间和内容。我们在 4 个知识密集型生成数据集上全面评估 DRAGIN 以及现有方法。实验结果表明,DRAGIN 在所有任务上都取得了优异的性能,证明了我们方法的有效性。我们已经开源了 GitHub 中的所有代码、数据和模型:这个 https URL ...
尽管大型语言模型 (LM) 具有非凡的理解和生成语言的能力,但它们容易产生幻觉并产生与事实不准确的输出。通过从外部知识资源检索信息来增强语言模型是一种有前景的解决方案。大多数现有的检索增强型语言模型都采用检索并生成设置,仅根据输入检索信息一次。然而,在涉及长文本生成的更一般场景中,这是有限的,在整个生成过程中不断收集信息至关重要。在这项工作中,我们提供了主动检索增强生成的概括视图,即在生成过程中主动决定何时检索以及检索什么内容的方法。我们提出了前瞻性主动检索增强生成(FLARE),这是一种通用方法,它迭代地使用对即将到来的句子的预测来预测未来的内容,然后将其用作查询来检索相关文档以重新生成句子(如果它包含低置信度标记)。我们在 4 个长篇知识密集型生成任务/数据集上全面测试 FLARE 和基线。 FLARE 在所有任务上都取得了优异或有竞争力的表现,证明了我们方法的有效性。代码和数据集可从此 https URL 获取 ...
最近对KGS建立基础模型的兴趣强调了一个基本挑战:知识图数据相对稀缺。最著名的kg主要是人体标记,通过图案匹配或使用早期NLP技术提取。尽管人类生成的公斤供应不足,但自动提取的kg质量值得怀疑 ...
现有的信息检索系统在很大程度上受到依赖向量内积来评估查询文档相关性的限制,这自然限制了它们可以产生的相关性得分的表达能力。我们提出了一个新的范式;我们没有将查询表示为向量,而是使用一个小型神经网络来充当学习的特定于查询的相关性函数。这个小型神经网络将文档表示作为输入(在这项工作中我们使用单个向量)并生成标量相关性得分 ...
这项工作探讨了超网络:一种使用一个网络(也称为超网络)来生成另一个网络权重的方法。超网络提供了类似于自然界中的抽象概念:基因型(超网络)和表型(主网络)之间的关系。尽管它们也让人想起进化中的 HyperNEAT,但我们的超网络是通过反向传播进行端到端训练的,因此通常速度更快 ...