在基于检索的生成 (RAG) 中度量和增强 LLM 的可信度

通过基于证据的归因和学习拒绝

Maojia Song¹ Shang Hong Sim¹¹¹footnotemark: 1 Rishabh Bhardwaj¹,
Hai Leong Chieu² Navonil Majumder¹ Soujanya Poria¹

¹ Singapore University of Technology and Design, ² DSO National Laboratories, Singapore
{maojia_song, shanghong_sim, rishabh_bhardwaj}@mymail.sutd.edu.sg
chaileon@dso.org.sg
{navonil_majumder, sporia}@sutd.edu.sg
These authors contributed equally.

摘要

LLM 是检索增强生成 (RAG) 系统中不可或缺的一部分。虽然许多研究集中在评估端到端 RAG 系统的质量，但缺乏对理解 LLM 在 RAG 任务中的适用性的研究。因此，我们引入了一种新的指标，Trust-Score，它提供了对 RAG 框架中 LLM 可信度的全面评估。我们表明，各种提示方法，例如上下文学习，无法有效地将 LLM 适应 RAG 任务。因此，我们提出 Trust-Align，一个用于将 LLM 对齐以获得更高 Trust-Score 的框架。使用我们方法对齐的 LLaMA-3-8b 在 ASQA ( $\uparrow$ 10.7)、QAMPARI ( $\uparrow$ 29.2) 和 ELI5 ( $\uparrow$ 14.9) 上显著优于同等规模的开源 LLM。我们在以下位置发布我们的代码：https://github.com/declare-lab/trust-align。

Maojia Song¹^†^†thanks: These authors contributed equally. Shang Hong Sim¹¹¹footnotemark: 1 Rishabh Bhardwaj¹, Hai Leong Chieu² Navonil Majumder¹ Soujanya Poria¹ ¹ Singapore University of Technology and Design, ² DSO National Laboratories, Singapore {maojia_song, shanghong_sim, rishabh_bhardwaj}@mymail.sutd.edu.sg chaileon@dso.org.sg {navonil_majumder, sporia}@sutd.edu.sg

1 介绍

大型语言模型 (LLM) 中的幻觉是生成式人工智能中的一个重大问题，模型会生成看似合理但实际上不正确的信息 Ji 等人 (2023)。例如，错误地指控个人犯罪 The Independent (2023)，生成虚构的司法案件 Bohannon (2023)，以及创作历史不准确的图像 Business Insider (2023)。这些情况引发了人们对 LLM 作为获取准确信息的工具的可靠性的担忧。

而不是直接将 LLM 用作信息来源，将它们整合到检索增强生成 (RAG) 框架中已成为提高生成信息可信度的流行方法。因此，典型的 RAG 系统包括一个大型语料库、一个检索器（用于查找与查询相关的最相关的 K 个参考文档）以及一个 LLM（用于撰写响应并以格式良好的方式将其呈现给用户）。值得注意的是，LLM 的角色从在非 RAG 设置中作为信息来源转变为成为检索器提供信息的整合者，整合取决于所提出的问题。

在研究和减少 LLM 中的幻觉方面，已经进行了大量研究。例如，Bai 等人（2024）检查了由于错误访问参数化知识而导致的幻觉。但是，人们对这些 LLM 在需要完全依赖提供给它们的外部（非参数化）知识时如何表现缺乏了解。 Gao 等人（2023b）的早期工作侧重于以端到端方式评估 RAG 系统，从而将检索的缺陷与最终 LLM 输出中的错误交织在一起。自然，这样的评估方案不利于隔离 RAG 设置下 LLM 的作用。

在这项工作中，我们提出了 Trust-Score——一种新颖的整体指标，用于专门评估 LLM 用于 RAG 的可信度。 Trust-Score 从多个维度评估 LLM：1) 根据提供的文档判断哪些问题可以回答或拒绝的能力（基于文档的拒绝）；2) 可回答响应的金标准召回分数（精确匹配召回）；3) 生成的断言在多大程度上得到相应引文的支持（引文召回）；以及 4) 引文的相关性（引文准确率）。

我们的研究表明，许多最先进的系统，包括 GPT-4 和 Claude-3.5-Sonnet，在很大程度上依赖于他们在参数调整阶段获得的内部参数化知识来回答问题 OpenAI (2023); Anthropic (2024)。这限制了它们在 RAG 任务中的适用性，因为模型应该只根据提供的文档来生成响应，从而导致 Trust-Score 较低。此外，旨在增强模型可信度的提示方法已被证明无效，因为模型的响应性变得对提示过于敏感。这导致了极端的已回答比率（AR%）值，表明不加区分地回答或拒绝。

因此，我们提出了一个对齐框架，Trust-Align，以调整 LLM 产生基于文档的响应并实现更高的 Trust-Score。该框架旨在构建一个对齐数据集，该数据集包含 19K 个问题、文档、正面（首选）响应 $r^{+}$ 和负面（非首选）响应 $r^{-}$ 。该数据集是为了解决发现的五种幻觉类型而创建的——不准确的答案、过度响应、过度拒绝、过度引用和不适当的引用。首先，我们收集了各种各样的高质量种子问题集 $q$ ，然后收集相关的（oracle）文档 $D$ ，然后进行广泛的数据增强。使用 GPT-4 将金标准断言拼接在一起生成正向响应，而负向响应则来自经过微调的通用 RAG 模型的排名靠前的幻觉。

对基准数据集的评估表明，使用 Trust-Align 训练的模型在可信度评分方面优于竞争基线：ASQA 上提高了 10.73%，QAMPARI 上提高了 29.24%，ELI5 上提高了 14.88%。与基线相比，TRUST-ALIGN 显着增强了模型正确拒绝或提供答案的能力，拒绝指标得分分别提高了 ASQA 的 9.87%、QAMPARI 的 22.53% 和 ELI5 的 5.32%。此外，Trust-Align 提高了引文质量，引文可信度得分分别提高了 ASQA 的 26.67%、QAM- PARI 的 31.96% 和 ELI5 的 29.30%。由于游戏化，我们在精确匹配召回方面观察到混合得分。我们观察到 QAMPARI (33.23%) 和 ELI5 (10.04%) 的召回得分显着增加，但 ASQA 减少了 4.34%。

我们证明，与 DPO 相结合的 Trust-Align 比提示或 SFT 方法更有效地提高了可信度。我们增强的数据在可信度评分方面取得了显着收益，ASQA 上提高了 1.50%，QAMPARI 上提高了 1.78%，ELI5 上提高了 2.23%。此外，消融研究强调了使用特定于每种幻觉子类型的数据的重要性。删除任何子类型的数据子段会导致可信度评分的可衡量下降。此外，我们发现与 Trust-Align 中的拒绝样本对齐会产生最高的可信度评分得分，强调了在训练期间包含拒绝样本的关键作用。我们对这项工作的关键贡献如下：

•

我们是第一个研究 RAG 设置中 LLM 幻觉的人，其中模型响应应完全基于检索到的文档，而不是模型的参数化知识。
•

我们定义了可回答性——一个关键概念，用于确定提供的文档是否足以回答问题。
•

为了衡量 RAG 下 LLM 的性能，我们引入了 Trust-Score，这是一个用于量化 RAG 设置中 LLM 幻觉的整体指标。
•

我们提出了 Trust-Align，一个旨在提高 LLM 在 RAG 中可信度的对齐框架。它首先创建了一个包含 19K 个样本的对齐数据集，其中包含正（黄金）和负（不优选）响应，然后将 DPO 算法应用于模型。

2 问题描述

2.1 任务设置

给定一个问题 $q$ 和一组检索到的文档 $\mathcal{D}$ 作为输入，LLM 被指示生成一个响应 $S$ ，该响应包含一组引用引用的陈述 $\{s_{1},\ldots,s_{n}\}$ ；每个陈述 $s_{i}$ 遵循一组引用 $\mathcal{C}_{i}=\{c_{i,1},c_{i,2},\ldots\}$ ，这些引用指的是 $\mathcal{D}$ 中的文档。 ¹ ¹1对于 QAMPARI，我们将响应列表中的每个实体视为一个陈述。 . 如果 $\mathcal{D}$ 不足以回答 $q$ ，则黄金响应将是拒绝陈述，例如，“我道歉，但我无法在搜索结果中找到你的问题的答案”。

2.2 何时需要拒绝？

为了将样本标记为地面真实拒绝，我们首先定义可回答性的概念：

拒绝响应不包含任何声明或引用，但提供了一条通用消息，传达了 LLM 无法响应 $q$ 的信息。

可回答性的细微差别。

确定可回答性可能具有挑战性。为了确定可回答性，我们使用了一个系统来评估黄金声明与提供的文档之间的蕴涵性，该系统被称为自然语言推理（NLI）系统。一个 NLI 系统可以从简单的精确匹配（EM）标识符到 LLM 甚至人类评估者不等，可回答性根据 $q, D$ 和 NLI 的偏差来确定 ² ²2对于 EM，偏见是，如果 $D$ 中存在对声明的完全匹配，则 $q$ 是可回答的。 . 这些偏差在特定的 RAG 应用中可能是有用的，例如解决数学问题，其中文档提供公式，问题为变量赋值。 NLI 的选择取决于 RAG 系统是否需要 LLM 具备数学理解能力。理想情况下，为了防止不当评估，用于构建黄金声明的 NLI 模型也应用于评估 LLM 响应。

在本文中，我们专注于评估 LLM 的通用理解能力，而不依赖于专业知识。因此，我们使用两种 NLI 机制：1) 识别黄金声明中是否存在对声明的精确匹配，以及 2) 使用机器学习 (ML) 模型来确定文档是否可以蕴涵黄金声明。基于 ML 的 NLI 模型用于多种目的，例如对齐数据集构建（数据/训练）和评估生成的响应（指标/测试）。为此，我们采用了 Rashkin 等人 (2022) 中的 NLI 模型。 $\phi(c_{ij},s_{i})=1$ 如果 $c_{ij}$ (前提) 蕴涵 $s_{i}$ (假设)；否则为 0。为了确定可回答性，我们采用 TRUE 基于方法 Honovich 等人 (2022) 来评估给定文档是否可以蕴涵黄金声明。

知识接地问题。

通常，LLM 被设计用于执行问答任务，其中响应生成严重依赖于他们在预训练、微调和对齐阶段获得的参数化（内部）知识 OpenAI (2023); Anthropic (2024)。因此，它们的大部分知识都根植于参数化记忆中。这使得它们本身不太适合 RAG 应用，在 RAG 应用中，LLM 生成的知识预计将以输入文档为基础。 RAG 類似於閱讀理解任務，其中答案必須來自提供的段落（RAG 中的文檔），而不是參加考試的人的先驗知識。因此，任何依賴於參數化知識的依賴都可能導致陳述未完全以文檔為基礎，包括對無法回答的問題提供答案。我们的调查表明，最先进的模型，如 GPT-4 和 Claude-3.5-Sonnet，即使在 RAG 设置中使用，也过度依赖于参数化知识。 ³³3 我们在第 D.1 和 D.2 节中展示了详细的分析。

2.3 RAG 中 LLM 的幻覺

對於 RAG 任務，我們將 LLM 中的幻覺定義為任何錯誤，其中生成的響應未以提供的文檔為基礎。我們將幻覺分為五種類型：(1) 不準確的答案 - 生成的陳述 $S$ 沒有涵蓋黃金響應中的斷言，(2) 過度響應 - 模型回答了無法回答（拒絕）的問題，(3) 過度拒絕 - 模型拒絕回答可以回答的問題，(4) 過度引用 - 模型生成冗餘引用，(5) 不當引用 - 模型的引用不支持該陳述。

接下來，我們介紹一個綜合指標，以有效地衡量 LLM 中的幻覺。

3 RAG 中 LLM 的指標

給定一個問題 $q$ 和對應的真實響應 $A_{G}=\{a_{g1},\ldots,a_{gn}\}$ ，其中包含黃金斷言，我們將從提供的文檔中獲得的斷言定義為 $A_{D}=\{a_{d1},\ldots,a_{dn}\}$ ，響應中生成的斷言定義為 $A_{R}=\{a_{r1},\ldots,a_{rn}\}$ 。我們的目標是衡量 RAG 中 LLM 的兩個方面：1) 生成的斷言的正確性（響應真實性）；以及 2) 生成的引用的正確性（歸因基礎）。

現有指標的不足。

現有指標通過首先計算黃金斷言 $A_{G}$ Gao 等人 (2023b) 的每個樣本的準確匹配召回 (EM_r) 分數來衡量響應真實性，而不考慮這些斷言中有多少可以從 $D$ 中獲得。接著對樣本的召回分數進行平均，以獲得數據集的單一分數。此方法引入了不一致性：依賴於參數化知識 ( $\mathcal{M}_{p}$ ) 的模型可能會生成在 $D$ 中找不到的黃金斷言，導致召回值被人工誇大。相反，一個理想的 LLM ( $\mathcal{M}_{i}$ ) 將僅依賴於 $D$ 生成響應（一個期望的特徵），並且會受到 $\frac{|A_{G}\cap A_{D}|}{|A_{G}|}$ 的上限召回限制，這取決於問題而異。這種方法呈現了兩個主要問題：(1) 召回合併：由於測量範圍取決於 $D$ 中存在的斷言，因此無法在整個數據集中提供一致的、合併的 EM_r 分數，(2) 召回遊戲化： $\mathcal{M}_{p}$ 可能具有較高的 EM_r 上限（高達 1），因為它們可以生成 $D$ 中不存在的黃金斷言（一個不期望的特徵），與完全依賴於 $D$ 的 $\mathcal{M}_{i}$ 不同。

答案校準。

为了解决现有评估指标中召回整合和游戏化的挑战，我们提出了新的指标，这些指标根据可以从 $D$ 中获得的黄金断言的比例来衡量样本级的召回得分。具体而言，这包括计算 $|A_{G}\cap A_{D}|$ ，它在校准黄金断言后衡量精确匹配 (EM) 召回。这种方法为所有模型设置了 1 的最大召回限制。对于数据集范围内的评分，我们使用两种方法整合每个样本的 EM 召回得分：1) EM ${}^{\alpha}_{\text{AC}}$ ：LLM 回答的样本上的平均召回得分，即 $A_{R}\neq\emptyset$ 的样本；2) EM ${}^{\beta}_{\text{AC}}$ ：可以回答的样本上的平均召回得分，即 ${A_{G}\cap A_{D}}\neq\emptyset$ 的样本。 ⁴ ⁴4值得注意的是，EM ${}^{\alpha}_{\text{AC}}$ 和 EM ${}^{\beta}_{\text{AC}}$ 都對已回答和可回答的樣本進行求和，主要區別在於其歸一化值。 . 这些指标如图 1所示，然后被组合成一个单一得分，即 EM ${}^{\text{F1}}_{\text{AC}}$ ，它作为衡量 LLM 如何将自己的断言定位在文档 $D$ 上的全面指标。这种组合指标不仅促进了召回整合，而且还解决了与召回游戏化相关的问题。

评分拒绝。

RAG 中 LLM 的一个重要能力是它能够根据提供的文档 $D$ 识别何时响应无法回答。为了衡量这一点，我们引入了一个称为“基于证据的拒绝”的指标。该指标通过计算数据集范围内的准确性和召回率来评估模型的拒绝性能，包括真实可回答的案例和拒绝。然后将这些值组合成它们各自的 F1 分数，F1_ref 用于拒绝，F1_ans 用于可回答的案例。最终得分 F1 ${}_{\text{RG}}$ 是这两个 F1 分数的平均值，如图 1 所示。

衡量归因证据性。

虽然 EM ${}^{\text{F1}}_{\text{AC}}$ 和 F1 ${}_{\text{CG}}$ 等响应真实性指标评估了生成断言的质量，但同样重要的是衡量这些断言在多大程度上得到了相关引文的支持——我们称之为“归因证据性”。为此，我们采用了 Gao et al. (2023b) 中的两个子指标：引用召回率 (CR) 和引用精确率 (CP)。为了计算 CR，我们首先使用 NLI 模型确定生成的陈述 $s_{i}$ 是否得到其引用的文档的支持。 ⁵ ⁵5NLI 模型检查引用的文档是否包含该陈述。，从而获得样本级的召回得分 CR^$s_{i}$。然后我们对所有样本求平均，得到最终的 CR 得分 (图 1)。为了计算 CP，我们首先对每个陈述 $s_{i}$ 的引文 $c_{i,j}$ 进行评分，然后计算响应 $S$ 中所有引文的平均值（样本级评分）。通过对所有样本的引文评分求平均值来计算整个数据集的引文评分。为了提供一个用于归因基础的单一指标，我们计算了 CP 和 CR 的调和平均值，得到最终分数 F1 ${}_{\text{CG}}$ 。

因此，我们定义了一个新的指标 Trust-Score，如下所示：

\textsc{Trust-Score}=\frac{1}{3}(\textbf{F1${}_{\text{RG}}$}+\textbf{EM${}^{% \text{F1}}_{\text{AC}}$}+\textbf{F1${}_{\text{CG}}$}).

响应性。

为了衡量 LLM 的回答倾向，我们定义了 Responsiveness。它是回答问题的比例，用回答率（AR%）表示，计算方法为 $\text{AR \%}=\frac{\text{\# answered}}{\text{\# total questions}}$ 。预期模型对可回答的问题显示出较高的 AR%，对不可回答的问题显示出较低的 AR%，并且分数预计与数据集分布一致。

4 Trust-Align 框架

为了使 LLM 更加可信，我们提出了一个新的框架 Trust-Align。该框架构建了一个 LLM 可信度对齐数据集，其中数据集中的每个样本都包含一个问题 $q$ ，一组检索到的文档 $D$ ，以及一对正（优选）和负（非优选）响应 ( $r^{+}$ , $r^{-}$ )。正响应对应于包含 $q$ 预期黄金声明以及指向文档的相应引文的答案。如果 $D$ 不足以回答 $q$ ，则 $r^{+}$ 被分配拒绝响应，而 $r^{-}$ 是其非拒绝对应项。我们分多个步骤构建数据集：1）获取一组高质量和多样化的问题，2）为每个问题获取文档，3）增强 $(q,D)$ 对以涵盖不同的幻觉类型，4）构建包含黄金声明的正响应，以及 5）通过提示微调模型并观察其幻觉来构建负（非优选）响应。

收集高质量问题。

数据集构建从收集来自源数据集（即 ASQA、QAMPARI 和 ELI5）的一组高质量（具有挑战性）和多样化的问题开始，这些问题被称为种子样本。为了收集此类样本，我们首先将数据集中的问题划分为 $k$ 个集群。在识别出不同的集群之后，我们为每个集群分配一个质量分数，分数范围从 1 到 7。集群的质量由在不需要额外信息的情况下回答问题的难易程度决定，即分数越高，难度越大。然后，我们选择质量分数为 4 或更高的集群，并从这些顶级集群中抽取所需数量的问题。假设我们有三个集群， $C_{1},C_{2},C_{3}$ ，它们的大小分别为 $N_{1},N_{2},N_{3}$ ，其中 $N_{c}=N_{1}+N_{2}+N_{3}$ 。为了从这些集群中抽取 $N_{s}$ 个问题，我们从集群 $C_{i}$ 中抽取 $N_{s}\times\frac{C_{i}}{N_{c}}$ 个问题。如果这个数字超过了集群中可用的问题数量，我们就会从过滤后的集群（质量分数低于 4 的集群）中随机抽取剩余的问题。此过程确保种子集优先考虑高质量和多样性。在本文中，我们分别将 $N_{s}$ 设置为 ASQA、QAMPARI 和 ELI5 的 3K、3K 和 4K，最终在种子集中约有 10K 个问题。

收集 D。

接下来，我们收集与种子集中每个问题相关的文档。为此，我们查询维基百科和 Common Crawl 以检索 100 个最相关的文档。我们过滤掉检索器无法检索到相关文档的种子问题。此外，我们确定了 5 个对模型而言与 100 个文档同样有效的文档（就实现 EM 回收率而言）；我们将此类文档称为问题 $q$ 的 oracle 文档。 ⁶ ⁶6我们在附录 B 中提供了聚类和文档检索的详细信息。值得注意的是，为了计算 EM，黄金标准从相应的源数据集获取。

增强 (q,D) 集。

现在我们有了问题和最相关的（oracle）文档，我们的目标是创建不同类型的样本（即同一问题的相关文档的不同比例），这些样本可以触发 LLM 的多种幻觉(节 2.3)。如图 3 所示，对于可回答的问题，我们首先利用识别出的蕴涵模式生成所有可能的文档组合，然后选择 $k$ 涵盖不同模式的组合。为了创建包含不可回答问题的样本，我们选择与黄金主张蕴涵文档相似的文档，但这些文档不蕴涵任何黄金主张。为了最大限度地降低在引用索引中引入偏差的风险，我们在每个样本中对文档的顺序进行洗牌。结果，我们生成了大约 70K 个问题-文档对。

在获得 $(q,D)$ 对以用于对齐数据集后，我们为每个对获得正面和负面响应 ( $r^{+},r^{-}$ )——数据集中的一个重要组成部分，它表明模型首选和非首选响应。为此，我们引入了一个响应生成管道。

获得 $\mathbf{r^{+}}$ 。

我们开发了一个自动数据标记管道，该管道从黄金主张中合成自然响应，并将每个语句映射到相应的文档，以嵌入内联引用。金标准答案来自源数据集 (ASQA, QAMPARI, ELI5) 并根据提供的文档进行校准，即过滤掉无法从 $D$ 中推导出的答案。我们首先根据提供的文档是否包含金标准答案将问题分成可回答和不可回答的样本。对于可回答的样本，包含一个问题 $q$ 、一组文档 $\mathcal{D}$ 和一个 (校准过的) 金标准答案列表，我们提示 GPT-4 通过使用模板 (表 6) 将金标准答案拼接在一起，从而生成自然响应。提示模板要求 GPT-4 用其在提供的列表中的索引 (例如，"[金标准答案 X]") 对使用的每个金标准答案进行标记，以便在之后将答案与文档进行匹配。对于不可回答的问题，会分配一个拒绝响应。节 B.1 提供了更多细节。为了生成与每个生成的语句相对应的引用，我们将 "[金标准答案 X]" 标记映射到相应的文档。首先，我们从一个句子中提取所有这样的标记 (该句子可能包含多个答案和标记)。然后，我们贪婪地识别涵盖这些答案的最小文档组合，最大限度地减少过度引用。该过程的细节在图 4 中说明。

获得 $\mathbf{r^{-}}$ 。

为了创建高质量的偏好数据，我们的目标是获得高质量的否定 (不被偏好) 响应。我们首先在源数据集的训练集上对 LLaMA-2-7b 进行微调，创建 $\mathcal{M}_{sft}$ (详细信息在节 B.1 中)。然后，我们在上面获得的数据集上测试 $\mathcal{M}_{sft}$ ，该数据集大约包含 70K 个问题，并发现 40K 个响应存在幻觉。表 1 显示了严重程度计算 ( $e_{i}$ ) 和每种幻觉类型的频率 ( $w_{i}$ )。因此，我们可以计算每个样本的幻觉严重程度：

e_{q}=\sum_{i=1}^{5}w_{i}e_{i},

(1)

Hallucination type	Frequency ( $w_{i}$ )		Severity ( $e_{i}$ )
Unwarranted Refusal	8,786	0.50	$I_{(A_{g}\neq\emptyset,A_{r}=\emptyset)}$
Over Responsiveness	13,067	0.50	$I_{(A_{g}=\emptyset,A_{r}\neq\emptyset)}$
Overcitation	12,656	0.34	1 - CP
Improper Citation	9,592	0.26	1 - CR
Inaccurate Claims	14,783	0.40	1 - EM ${}^{\text{F1}}_{\text{AC}}$

表 1：

\mathcal{M}_{sft}

（40,985）中，每种幻觉所占的比例，可能存在重叠。

w_{i}

显示了每种幻觉的严重程度计算。

I_{\text{condition}}

= 1 如果条件为真，否则为 0。参见图 5 以了解最后三个错误的详细细分。

为了获得良好的负样本，我们首先根据它们的严重程度评分 $e_{q}$ 对 40K 个响应中的每一个进行排名。然后，我们选择可回答和不可回答响应的对应样本的前 50%。因此，我们展示了 Trust-Align 的对齐数据构建阶段，即获得具有所有期望属性的 19K 个样本 $(\mathbf{q,D,r^{+},r^{-}})$ 。

5 实验设置

评估数据集。

我们在 ASQA Stelmakh 等人 (2023)、QAMPARI Amouyal 等人 (2023) 和 ELI5 Fan 等人 (2019) 中可归因的琐碎事实和长篇问答任务的测试集上进行评估。此外，我们还包括 ExpertQA Malaviya 等人 (2024) 用于泛化评估。对于每个问题，我们附加使用检索器获得的前 5 个文档。对于 ELI5 和 ExpertQA，基本事实答案被分解为三个断言。数据集统计信息显示在第 6 节的顶部。

基线。

我们评估了 Trust-Align 框架在两种设置下的有效性 - 默认提示和拒绝提示，如表 15 所示。我们将使用 Trust-Align 框架训练的模型与五种具有竞争力的基线方法进行比较 - 上下文学习 (ICLCite) Gao 等人 (2023b)、事后属性 Gao 等人 (2023a)、事后搜索 Gao 等人 (2023b)、Self-RAG Asai 等人 (2024) 和 FRONT Huang 等人 (2024b)。这些基线的详细信息在第 G.3 节给出。

		ASQA (610 answerable, 338 unanswerable)					QAMPARI (295 answerable, 705 unanswerable)					ELI5 (207 answerable, 793 unanswerable)
		Responsiveness	Trustworthiness				Responsiveness	Trustworthiness				Responsiveness	Trustworthiness
		AR (%)	Truthfullness		Attr. Grdness	TRUST	AR (%)	Truthfullness		Attr. Grdness	TRUST	AR (%)	Truthfullness		Attr. Grdness	TRUST
	Prompt	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST
		LLaMA-2-7b
ICL	R	0.00	0.00	26.28	0.00	8.76	0.00	0.00	41.35	0.00	13.78	0.50	0.00	46.71	0.00	15.57
PostCite	R	10.44	0.07	35.23	0.00	11.77	34.40	0.00	57.34	9.50	22.28	0.90	1.86	44.98	5.04	17.29
PostAttr	R	10.44	0.07	35.23	0.00	11.77	34.40	0.00	57.34	3.78	20.37	0.90	1.86	44.98	0.00	15.61
Self-RAG	R	100.00	45.19	39.15	63.49	49.28	96.00	6.81	28.23	19.95	18.33	73.50	14.94	40.20	13.80	22.98
FRONT	R	100.00	60.47	39.15	68.86	56.16	100.00	17.27	22.78	24.26	21.44	100.00	21.66	17.15	52.72	30.51
ICL	D	94.30	50.38	49.51	43.67	47.85	93.60	8.36	31.02	3.88	14.42	95.30	19.83	22.82	16.30	19.65
PostCite	D	88.71	2.30	50.82	0.98	18.03	56.30	0.00	49.18	7.73	18.97	83.90	11.95	30.05	4.90	15.63
PostAttr	D	87.24	2.32	51.56	0.43	18.10	51.10	0.00	49.50	4.70	18.07	84.00	11.94	29.74	0.93	14.20
Self-RAG	D	98.00	46.82	41.16	56.59	48.19	96.20	7.72	27.08	15.44	16.75	97.90	13.16	19.62	10.31	14.36
		LLaMA-2-13b
ICL	R	17.41	21.52	41.40	13.83	25.58	26.50	0.44	59.57	0.00	20.00	46.40	19.97	54.81	4.73	26.50
PostCite	R	90.51	2.21	49.91	1.53	17.88	100.00	0.00	22.78	8.05	10.28	76.60	2.27	38.05	0.72	13.68
PostAttr	R	90.51	2.21	49.91	0.17	17.43	100.00	0.00	22.78	2.95	8.58	76.60	2.27	38.05	0.09	13.47
Self-RAG	R	100.00	48.52	39.15	69.79	52.49	72.70	2.71	48.58	26.91	26.07	22.10	12.77	58.68	24.54	32.00
ICL	D	97.57	49.16	44.06	9.35	34.19	97.80	0.00	26.20	0.00	8.73	96.50	20.93	21.06	2.80	14.93
PostCite	D	89.77	0.04	50.33	0.00	16.79	63.00	0.00	47.20	7.14	18.11	7.00	3.62	45.31	4.73	17.89
PostAttr	D	89.24	0.04	51.46	0.00	17.17	58.50	0.00	48.86	4.56	17.81	6.70	3.66	48.41	0.71	17.59
Self-RAG	D	97.68	48.93	42.74	63.39	51.69	96.30	3.66	27.15	21.06	17.29	98.00	12.19	19.07	6.68	12.65
		LLaMA-3-8b
ICL	R	1.48	3.01	28.58	86.50	39.36	3.90	5.92	48.60	20.24	24.92	0.00	0.00	44.23	0.00	14.74
PostCite	R	77.53	32.98	53.31	28.01	38.10	87.00	6.10	34.52	8.42	16.35	62.00	20.80	45.88	8.06	24.91
PostAttr	R	77.53	32.98	53.31	5.95	30.75	87.00	6.10	34.52	1.64	14.09	62.00	20.80	45.88	1.25	22.64
ICL	D	89.66	58.28	55.62	61.59	58.50	70.80	5.82	50.50	4.81	20.38	84.60	23.69	33.11	31.03	29.28
PostCite	D	97.26	34.80	43.56	17.89	32.08	92.00	2.45	30.07	11.14	14.55	98.90	19.00	18.47	6.33	14.60
PostAttr	D	97.47	34.75	42.98	3.18	26.97	93.00	2.43	29.95	5.65	12.68	98.90	19.00	18.26	1.02	12.76
		Our Models
SFT-LLaMA-2-7b	R	80.17	53.21	63.43	79.61	65.42	31.60	33.76	71.13	46.37	50.42	29.50	21.58	63.30	39.59	41.49
SFT-LLaMA-3-8b	R	68.99	52.35	66.06	80.95	66.45	24.20	33.85	71.11	48.01	50.99	23.60	22.57	65.06	46.85	44.83
DPO-LLaMA-2-7b	R	65.30	52.48	66.12	83.94	67.51	31.10	32.09	71.83	51.33	51.75	21.60	22.54	63.27	48.43	44.75
DPO-LLaMA-3-8b	R	56.43	53.94	65.49	88.26	69.23	23.10	35.94	71.11	58.87	55.31	15.50	22.81	64.00	53.84	46.88
3-17 $\Delta$			$\downarrow$ 4.34	$\uparrow$ 9.87	$\uparrow$ 26.67	$\uparrow$ 10.73		$\uparrow$ 33.23	$\uparrow$ 22.53	$\uparrow$ 31.96	$\uparrow$ 29.24		$\uparrow$ 10.04	$\uparrow$ 5.32	$\uparrow$ 29.30	$\uparrow$ 14.88

	ASQA					QAMPARI					ELI5
	Responsiveness	Trustworthiness				Responsiveness	Trustworthiness				Responsiveness	Trustworthiness
	AR (%)	Truthfullness		Attr. Grdness	TRUST	AR (%)	Truthfullness		Attr. Grdness	TRUST	AR (%)	Truthfullness		Attr. Grdness	TRUST
	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST
DPO-LLaMA-2-7b	65.30	52.48	66.12	83.94	67.51	31.10	32.09	71.83	51.33	51.75	21.60	22.54	63.27	48.43	44.75
Trust-Align w/o. augmented instructions	79.43	53.54	63.33	81.15	66.01	32.20	33.14	70.82	45.94	49.97	29.50	23.98	63.30	40.28	42.52
Trust-Align w/o. answer HT	77.74	53.29	63.7	81.2	66.06	33.40	33.56	71.36	46.17	50.36	27.60	23.47	63.56	38.28	41.77
Trust-Align w/o. citation HT	77.32	52.55	63.88	81.51	65.98	33.10	34.13	71.40	46.91	50.81	26.70	22.65	64.33	42.81	43.26
Trust-Align w/o. refusal HT	79.11	53.55	63.33	81.85	66.24	31.10	34.40	71.35	48.12	51.29	28.30	22.93	64.05	41.18	42.72
GPT-4 as critic	70.36	54.91	65.29	78.47	66.22	25.90	30.77	70.29	48.87	49.98	23.50	17.27	62.24	42.38	40.63

	Model	Responsiveness (AR%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST
Only Answerable	DPO-LLaMA-2-7b	100	51.79	39.15	77.37	56.10
Only Answerable	DPO-LLaMA-3-8b	100	56.54	39.15	81.39	59.03
With Refusal	DPO-LLaMA-2-7b	65.30	52.48	66.12	83.94	67.51
With Refusal	DPO-LLaMA-3-8b	56.43	53.94	65.49	88.26	69.23

In-Context Learning Models
Model	AR (%)	EM ${}^{\text{F1}}_{\text{AC}}$	F1 ${}_{\text{RG}}$	F1 ${}_{\text{CG}}$	TRUST
ICL-LLaMA-2 7B	0.51	0.00	41.01	9.52	16.84
ICL-LLaMA-3 8B	0.65	2.82	42.50	69.46	38.26
ICL-GPT-3.5	59.47	36.65	56.39	63.91	52.32
ICL-GPT-4	72.20	41.21	52.91	69.70	54.61
ICL-Claude 3.5	73.95	11.68	51.91	10.70	24.76
Direct Preference Optimization Models
DPO-LLaMA-2-7B	17.75	23.99	66.63	64.96	51.86
DPO-LLaMA-3-8B	16.41	27.36	68.05	70.11	54.85

$\displaystyle\text{P}_{\text{ref}}$	$\displaystyle=\frac{\|\neg A_{r}\cap\neg A_{g}\|}{\|\neg A_{r}\|}$	(2)
$\displaystyle\text{R}_{\text{ref}}$	$\displaystyle=\frac{\|\neg A_{r}\cap\neg A_{g}\|}{\|\neg A_{g}\|}$	(3)
$\displaystyle\text{F1}_{\text{ref}}$	$\displaystyle=\frac{\text{2P}_{\text{ref}}\cdot\text{R}_{\text{ref}}}{\text{P}% _{\text{ref}}+\text{R}_{\text{ref}}},$	(4)

$\displaystyle\text{P}_{\text{ans}}$	$\displaystyle=\frac{\|A_{r}\cap A_{g}\|}{\|A_{r}\|}$	(5)
$\displaystyle\text{R}_{\text{ans}}$	$\displaystyle=\frac{\|A_{r}\cap A_{g}\|}{\|A_{g}\|}$	(6)
$\displaystyle\text{F1}_{\text{ans}}$	$\displaystyle=\frac{2\text{P}_{\text{ans}}\cdot\text{R}_{\text{ans}}}{\text{P}% _{\text{ans}}+\text{R}_{\text{ans}}}$	(7)

	$\displaystyle\text{CP}^{c_{j}}$	$\displaystyle=\phi(c_{i,j},s_{i})$		(13)
		$\displaystyle\quad\text{OR}\quad\neg\phi(\{c_{i,k}\mid k\neq j\},s_{i})$

CR	$\displaystyle=\frac{1}{\|A_{r}\|}\sum_{S\in A_{r}^{s}}\frac{1}{\|S\|}\sum_{s_{i}% \in S}\text{CR}^{s_{i}}$	(14)
CP	$\displaystyle=\frac{1}{\|A_{r}\|}\sum_{C\in A_{r}^{c}}\frac{1}{\|C\|}\sum_{c_{j}% \in C}\text{CP}^{c_{j}}$	(15)
F1_CG	$\displaystyle=\frac{2\cdot\text{CP}\cdot\text{CR}}{\text{CP}+\text{CR}}$	(16)

Question	How many state parks are there in Virginia?
Gold Answer	38
Retrieved document	Virginia has 30 National Park Service units, such as Great Falls Park and the Appalachian Trail, and one national park, the Shenandoah National Park. With over 500 miles of trails, including 38 miles of the iconic Appalachian Trail, it’s a paradise for hikers, nature lovers, and those seeking serene mountain landscapes.
Substring match	Substring is matched and as such the question is answerable.
TRUE Judgement	Not entailed as such the question is unanswerable given the document.

Model	ASQA		QAMPRARI		ELI5
Model	AR (%)	$\text{P}_{\text{score}}$	AR (%)	$\text{P}_{\text{score}}$	AR (%)	$\text{P}_{\text{score}}$
ICL-LLaMA-2 7B	0.00	0.00	0.00	0.00	0.50	0.00
ICL-LLaMA-3 8B	1.48	1.79	3.90	16.92	0.00	0.00
ICL-GPT-3.5	71.20	9.74	65.30	11.45	49.00	7.89
ICL-GPT-4	86.81	12.71	73.40	13.05	61.50	9.05
ICL-Claude-3.5	84.60	12.99	69.80	12.55	59.00	1.76
DPO-LLaMA-2-7B	65.30	8.15	31.10	8.45	21.60	5.56
DPO-LLaMA-3-8B	56.42	8.65	23.10	8.97	15.50	7.26

	Presence	$\displaystyle=\frac{1}{\|\mathcal{N}_{e}\|}\sum_{q_{i}\in{\mathcal{A}_{e}}}\frac% {\|A_{R}^{e}\cap A_{D}\|}{\|A_{R}^{e}\|}$		(19)
	Absence	$\displaystyle=\frac{1}{\|\mathcal{N}_{e}\|}\sum_{q_{i}\in{\mathcal{A}_{e}}}\frac% {\|A_{R}^{e}-(A_{R}^{e}\cap A_{D})\|}{\|A_{R}^{e}\|}$		(20)

	ASQA	QAMPARI	ELI5	ExpertQA
Total # of Samples	948	1000	1000	2169
# Answerable Samples	610	295	207	682
# Unanswerable Samples	338	705	793	1487

	Prompt	AR%	EM_reg	EM ${}^{\alpha}_{\text{AC}}$	EM ${}^{\beta}_{\text{AC}}$	EM^F1_AC	$\text{R}_{\text{ref}}$	$\text{P}_{\text{ref}}$	$\text{F1}_{\text{ref}}$	$\text{R}_{\text{ans}}$	$\text{P}_{\text{ans}}$	$\text{F1}_{\text{ans}}$	F1 ${}_{\text{CG}}$	CR	CP	F1_CG	Trust-Score
		LLaMA-2-7b
ICL	R	0.00	12.78	0.00	0.00	0.00	100.00	35.65	52.57	0.00	0.00	0.00	26.28	0.00	0.00	0.00	8.76
PostCite	R	10.44	8.49	0.25	0.04	0.07	90.53	36.04	51.56	10.98	67.68	18.90	35.23	0.00	0.00	0.00	11.77
PostAttr	R	10.44	8.49	0.25	0.04	0.07	90.53	36.04	51.56	10.98	67.68	18.90	35.23	0.00	0.00	0.00	11.77
Self-RAG	R	100.00	28.87	37.13	57.71	45.19	0.00	0.00	0.00	100.00	64.35	78.31	39.15	59.27	68.35	63.49	49.28
FRONT	D	100.00	40.72	49.69	77.22	60.47	0.00	0.00	0.00	100.00	64.35	78.31	39.15	68.45	69.27	68.86	56.16
ICL	D	94.30	32.29	42.06	62.79	50.38	11.54	72.22	19.90	97.54	66.55	79.12	49.51	44.21	43.14	43.67	47.85
PostCite	D	88.71	1.91	1.98	2.73	2.30	16.27	51.40	24.72	91.48	66.35	76.91	50.82	0.98	0.98	0.98	18.03
PostAttr	D	87.24	1.91	2.01	2.73	2.32	18.05	50.41	26.58	90.16	66.51	76.55	51.56	0.43	0.43	0.43	18.10
Self-RAG	D	98.00	30.11	38.63	59.41	46.82	2.37	42.11	4.48	98.20	64.48	77.84	41.16	50.69	64.05	56.59	48.19
		LLaMA-2-13b
ICL	R	17.41	9.17	50.54	13.67	21.52	86.39	37.29	52.10	19.51	72.12	30.71	41.40	10.94	18.81	13.83	25.58
PostCite	R	90.51	1.88	1.89	2.66	2.21	14.20	53.33	22.43	93.11	66.20	77.38	49.91	1.53	1.53	1.53	17.88
PostAttr	R	90.51	1.88	1.89	2.66	2.21	14.20	53.33	22.43	93.11	66.20	77.38	49.91	0.17	0.17	0.17	17.43
Self-RAG	R	100.00	30.82	39.87	61.96	48.52	0.00	0.00	0.00	100.00	64.35	78.31	39.15	66.42	73.52	69.79	52.49
ICL	D	97.57	33.31	40.57	62.35	49.16	5.03	73.91	9.42	99.02	65.30	78.70	44.06	7.22	13.25	9.35	34.19
PostCite	D	89.77	0.06	0.03	0.04	0.04	15.09	52.58	23.45	92.46	66.27	77.21	50.33	0.00	0.00	0.00	16.79
PostAttr	D	89.24	0.06	0.03	0.04	0.04	16.57	54.90	25.45	92.46	66.67	77.47	51.46	0.00	0.00	0.00	17.17
Self-RAG	D	97.68	31.36	40.53	61.73	48.93	3.85	59.09	7.22	98.52	64.90	78.26	42.74	58.31	69.44	63.39	51.69
		LLaMA-3-8b
ICL	R	1.48	0.69	67.14	1.54	3.01	99.70	36.08	52.99	2.13	92.86	4.17	28.58	92.86	80.95	86.50	39.36
PostCite	R	77.53	22.15	30.17	36.36	32.98	27.51	43.66	33.76	80.33	66.67	72.86	53.31	28.01	28.01	28.01	38.10
PostAttr	R	77.53	22.15	30.17	36.36	32.98	27.51	43.66	33.76	80.33	66.67	72.86	53.31	5.95	5.95	5.95	30.75
ICL	D	89.66	36.41	49.83	70.17	58.28	20.41	70.41	31.65	95.25	68.35	79.59	55.62	61.40	61.77	61.59	58.50
PostCite	D	97.26	27.65	28.91	43.69	34.80	4.73	61.54	8.79	98.36	65.08	78.33	43.56	17.89	17.89	17.89	32.08
PostAttr	D	97.47	27.65	28.84	43.69	34.75	4.14	58.33	7.73	98.36	64.94	78.23	42.98	3.18	3.18	3.18	26.97
		Closed-source Models
GPT-3.5	R	71.20	27.30	50.36	55.72	52.91	48.82	60.44	54.01	82.30	74.37	78.13	66.07	84.66	83.24	83.94	67.64
GPT-4	R	86.81	37.93	54.81	73.95	62.96	28.99	78.40	42.33	95.57	70.84	81.37	61.85	85.82	82.93	84.35	69.72
Claude-3.5	R	84.60	36.29	52.79	69.41	59.97	34.02	78.77	47.52	94.92	72.19	82.01	64.77	67.29	69.43	68.35	64.36
GPT-3.5	D	94.41	34.67	46.27	67.88	55.03	14.20	90.57	24.55	99.18	67.60	80.40	52.48	78.13	77.95	78.04	61.85
GPT-4	D	92.72	41.13	52.58	76.65	62.37	16.86	82.61	28.01	98.03	68.03	80.32	54.17	79.48	79.92	79.70	65.41
Claude-3.5	D	82.49	32.68	47.64	62.86	54.20	37.87	77.11	50.79	93.77	73.15	82.18	66.49	57.41	60.44	58.88	59.86
		Our Models
SFT-LLaMA-2-7b	R	80.17	29.21	47.96	59.76	53.21	36.69	65.96	47.15	89.51	71.84	79.71	63.43	83.36	76.18	79.61	65.42
SFT-LLaMA-3-8b	R	68.99	25.22	50.59	54.24	52.35	51.18	58.84	54.75	80.16	74.77	77.37	66.06	86.09	76.38	80.95	66.45
DPO-LLaMA-2-7b	R	65.30	25.04	52.10	52.87	52.48	55.33	56.84	56.07	76.72	75.61	76.16	66.12	85.35	82.57	83.94	67.51
DPO-LLaMA-3-8b	R	56.43	23.53	57.72	50.63	53.94	64.79	53.03	58.32	68.20	77.76	72.66	65.49	88.93	87.60	88.26	69.23

	Prompt	AR%	EM_reg	EM ${}^{\alpha}_{\text{AC}}$	EM ${}^{\beta}_{\text{AC}}$	EM^F1_AC	$\text{R}_{\text{ref}}$	$\text{P}_{\text{ref}}$	$\text{F1}_{\text{ref}}$	$\text{R}_{\text{ans}}$	$\text{P}_{\text{ans}}$	$\text{F1}_{\text{ans}}$	F1 ${}_{\text{CG}}$	CR	CP	F1_CG	Trust-Score
		LLaMA-2-7b
ICL	R	0.50	2.63	0.00	0.00	0.00	100.00	79.70	88.70	2.42	100.00	4.72	46.71	0.00	0.00	0.00	15.57
PostCite	R	0.90	6.33	22.22	0.97	1.86	99.12	79.31	88.12	0.97	22.22	1.85	44.98	5.04	5.04	5.04	17.29
PostAttr	R	0.90	6.33	22.22	0.97	1.86	99.12	79.31	88.12	0.97	22.22	1.85	44.98	0.00	0.00	0.00	15.61
Self-RAG	R	73.50	6.80	9.57	33.98	14.94	29.13	87.17	43.67	83.57	23.54	36.73	40.20	12.34	15.65	13.80	22.98
FRONT	D	100.00	9.57	13.07	63.12	21.66	0.00	0.00	0.00	100.00	20.70	34.30	17.15	52.44	53.01	52.72	30.51
ICL	D	95.30	12.03	12.07	55.56	19.83	5.55	93.62	10.48	98.55	21.41	35.17	22.82	15.73	16.92	16.30	19.65
PostCite	D	83.90	8.13	7.45	30.19	11.95	16.14	79.50	26.83	84.06	20.74	33.27	30.05	4.90	4.90	4.90	15.63
PostAtr	D	84.00	8.13	7.44	30.19	11.94	15.89	78.75	26.44	83.57	20.60	33.05	29.74	0.93	0.93	0.93	14.20
Self-RAG	D	97.90	8.13	7.97	37.68	13.16	2.40	90.48	4.67	99.03	20.94	34.57	19.62	9.01	12.05	10.31	14.36
		LLaMA-2-13b
ICL	R	46.40	6.90	14.44	32.37	19.97	58.39	86.38	69.68	64.73	28.88	39.94	54.81	3.79	6.28	4.73	26.50
PostCite	R	76.60	2.27	1.44	5.31	2.27	25.73	87.18	39.73	85.51	23.11	36.38	38.05	0.72	0.72	0.72	13.68
PostAttr	R	76.60	2.27	1.44	5.31	2.27	25.73	87.18	39.73	85.51	23.11	36.38	38.05	0.09	0.09	0.09	13.47
Self-RAG	R	22.10	2.40	12.37	13.20	12.77	81.59	83.06	82.32	36.23	33.94	35.05	58.68	22.09	27.60	24.54	32.00
ICL	D	96.50	13.07	12.71	59.26	20.93	3.91	88.57	7.49	98.07	21.04	34.64	21.06	2.45	3.25	2.80	14.93
PostCite	D	7.00	0.57	7.14	2.42	3.62	92.18	78.60	84.85	3.86	11.43	5.78	45.31	4.73	4.73	4.73	17.89
PostAttr	D	6.70	0.57	7.46	2.42	3.66	93.44	79.42	85.86	7.25	22.39	10.95	48.41	0.71	0.71	0.71	17.59
Self-RAG	D	98.00	9.73	7.38	34.94	12.19	2.02	80.00	3.94	98.07	20.71	34.20	19.07	5.71	8.06	6.68	12.65
		LLaMA-3-8b
ICL	R	0.00	0.00	0.00	0.00	0.00	100.00	79.30	88.46	0.00	0.00	0.00	44.23	0.00	0.00	0.00	14.74
PostCite	R	62.00	10.80	13.87	41.55	20.80	40.86	85.26	55.24	72.95	24.35	36.52	45.88	8.06	8.06	8.06	24.91
PostAttr	R	62.00	10.80	13.87	41.55	20.80	40.86	85.26	55.24	72.95	24.35	36.52	45.88	1.25	1.25	1.25	22.64
ICL	D	84.60	11.90	14.74	60.23	23.69	17.65	90.91	29.57	93.24	22.81	36.66	33.11	31.32	30.74	31.03	29.28
PostCite	D	98.90	17.40	11.49	54.91	19.00	1.26	90.91	2.49	99.52	20.83	34.45	18.47	6.33	6.33	6.33	14.60
PostAttr	D	98.90	17.40	11.49	54.91	19.00	1.13	81.82	2.24	99.03	20.73	34.28	18.26	1.02	1.02	1.02	12.76
		Closed-source Models
GPT-3.5	R	49.00	8.47	23.03	54.51	32.38	58.26	90.59	70.91	76.81	32.45	45.62	58.27	56.57	58.03	57.29	49.31
GPT-4	R	61.50	10.50	22.09	65.62	33.05	45.65	94.03	61.46	88.89	29.92	44.77	53.11	61.33	62.35	61.84	49.33
Claude-3.5	R	59.00	2.87	7.66	21.82	11.34	48.05	92.93	63.34	85.99	30.17	44.67	54.00	11.64	13.34	12.43	25.92
GPT-3.5	D	93.50	14.33	14.58	65.86	23.88	7.57	92.31	13.99	97.58	21.60	35.38	24.68	46.46	46.10	46.28	31.61
GPT-4	D	82.80	15.00	18.18	72.71	29.09	21.19	97.67	34.82	98.07	24.52	39.23	37.02	48.20	48.47	48.33	38.15
Claude-3.5	D	56.60	3.40	7.89	21.58	11.56	51.07	93.32	66.01	85.99	31.45	46.05	56.03	10.22	12.43	11.22	26.27
		Our Models
SFT-LLaMA-2-7b	R	29.50	3.80	18.36	26.17	21.58	77.05	86.67	81.58	54.59	38.31	45.02	63.30	45.25	35.19	39.59	41.49
SFT-LLaMA-3-8b	R	23.60	3.27	21.19	24.15	22.57	82.98	86.13	84.52	48.79	42.80	45.60	65.06	51.77	42.79	46.85	44.83
DPO-LLaMA-2-7b	R	21.60	3.30	22.07	23.03	22.54	83.98	84.95	84.46	43.00	41.20	42.08	63.27	48.46	46.29	47.35	44.39
DPO-LLaMA-3-8b	R	15.50	2.77	24.30	18.20	20.81	89.66	84.14	86.81	35.27	47.10	40.33	63.57	50.75	49.74	50.24	44.87

Insufficient case
Question: Why do burns blister and why do burn wounds remain warm long after the injury occurred?
Label: Burn blisters occur when the second layer of the skin is damaged, they occur to protect the underlying skin layers from more damage and infection. You could see it as the bodys/skins natural bandage, so never pop them. The skin remain warm because of the increased blood in the area to repair and replace the damaged skin.

Decomposed claims: 1. Burn blisters occur when the second layer of skin is damaged. 2. Burn wounds remain warm due to increased blood flow to the area to repair and replace damaged skin.

Missing points: 1. Protection and Infection: The first claim does not mention that the blisters protect the underlying skin from more damage and infection, which is a significant part of the explanation in the answer. 2. Never Pop Them: The answer advises against popping blisters, which is a preventive measure not mentioned in the claims.
Redundant case
Question: How do fitness trackers know that you actually sleeping but not just laying there resting, being awake?
Label: Your heart beats slows down when you sleep, they will use a mixture of heart rate and how long you haven’t moved to determine how you’ve slept

Decomposed claims: 1. The combined factors of heart rate and inactivity determine sleep assessment. 2. Fitness trackers consider the duration of inactivity to assess sleep. 3. A slowed heart rate is an indicator of sleep that fitness trackers monitor.

Redundant point: The first claim has already summarised the core statement, and the last two claims just expand it and give more details

Coverage Critic Prompt
[INSTRUCTION] You will be given Question and the corresponding correct answers, along with a candidate answer and reference facts. Please follow these steps to process the candidate answer: 1. Carefully read and understand the given Question, the list of correct answers, and the candidate answer. 2. For each given correct answer, first determine if there is a conflict with the candidate answer: - If there is no conflict, and it is included in the candidate answer, extract the matched term from the candidate answer and classify them as "upvote". - If there is a conflict, identify the specific conflicting span within the candidate answer (accurately pinpoint the details), classify it as "downvote", then only minimally modify the conflicting part of the candidate answer to correct it according to the corresponding correct answer (using context from the reference fact). Classify the modified span as "revise". - If there is a conflict, but it is not included in the candidate answer, extend the candidate answer to include the correct answer (using material from the corresponding part of the reference facts), and classify the extended portion as "revise". 3. At the end of your response, provide the following: - The final revised candidate answer that includes all correct answers and has no conflicts (if no modification is needed, output the original one). [TASK] Question: {QUESTION} Correct Answers: {SHORT_ANS} Candidate Answer: {CANDIDATE} Reference Facts: {FACT}
Citation Critic Prompt
[INSTRUCTION] Given a question and a list of CLAIMs, use the provided FACTs to determine which numbered FACTs togeter SUPPORT, OPPOSE, or are IRRELEVANT to each CLAIM. Follow these to give your judgement: 1. "SUPPORT" means the FACT directly participates in supporting the factuality of the CLAIM. The CLAIM should be strongly implied by the FACT. 2. "OPPOSE" means the FACT contributes to prove the CLAIM contains at least one factual error. 3. "IRRELEVANT" means the FACT does not contribute directly to either SUPPORT or OPPOSE the given CLAIM. 4. Carefully read the given question and FACTs to ensure you have a clear understanding of them. 5. For each CLAIM, analyze its content to show all factual arguments and assertions. 6. Look into the details of each FACT, and find factual-related points of each FACT. 7. Before determining your final judgement for all CLAIMs at the end, state your reasoning and evidence first. 8. In your final judgement, give a numbered list with each line corresponding to a CLAIM. Then, for each CLAIM, separately list the index of each FACT for "SUPPORT", "OPPOSE", and "IRRELEVANT", with the format [FACT X], where X is the index of the FACT starting from 1. For example, suppose we have two CLAIMs and three FACTs in total: "/n/n1. SUPPORT: [FACT 1][FACT 3], OPPOSE: NONE, IRRELEVANT: [FACT 2]/n/n2. SUPPORT: NONE, OPPOSE: [FACT 2], IRRELEVANT: [FACT 1][FACT 3]". If no FACT, then just give "NONE". [TASK] Question: {QUESTION} CLAIM: {CLAIM_PLACEHOLDER} FACTs: {FACT_PLACEHOLDER}

在基于检索的生成 (RAG) 中度量和增强 LLM 的可信度 通过基于证据的归因和学习拒绝

摘要

1 介绍

2 问题描述

2.1 任务设置

2.2 何时需要拒绝？

可回答性的细微差别。

知识接地问题。

2.3 RAG 中 LLM 的幻覺

3 RAG 中 LLM 的指標

現有指標的不足。

答案校準。

评分拒绝。

衡量归因证据性。

响应性。

4 Trust-Align 框架

收集高质量问题。

收集 D。

增强 (q,D) 集。

获得 𝐫+。

获得 𝐫−。

5 实验设置

评估数据集。

基线。

6 结果与分析

信任对齐 提高了可信度，相比基线方法更胜一筹。

信任对齐 提高了模型的拒绝能力。

信任对齐 增强了模型的引用质量。

Trust-Align 对 EMACF1 影响 mixed。

与 DPO 对齐的模型优于那些使用 SFT 训练的模型。

Trust-Align 比提示更有效地增强可信度。

6.1 分析

6.1.1 不同的数据合成技术

6.1.2 在 Trust-Align 中添加拒绝样本的影响

6.1.3 泛化性分析

7 相关工作

7.1 可归因检索增强生成

7.2 增强可归因大型语言模型中的接地文本生成

8 结论

参考文献

附录 A 指标

A.1 回答真实性

接地拒绝 [F1RG]:

准确匹配（答案校准） [EMF1AC]:

A.2 归因基础

基于引文的 F1 分数 [F1CG]:

可信度得分:

附录 B 关于 Trust-Align 框架的详细信息

B.1 种子提示整理细节

聚类问题。

聚类质量。

获取 D for q。

获取 r+。

获取 r−。

B.2 数据集统计

附录 C 可回答性：一个案例研究

附录 D 附加分析

D.1 参数知识的利用

D.2 LLM 幻觉的来源

D.3 与闭源模型的比较

D.4 不同对齐技术下的适应性

D.5 在不使用 TRUE 的情况下创建评估数据

附录 E 提示模板

附录 F 基于 GPT-4 的数据管道

覆盖面批评。

引文批评。

附录 G 实验设置

G.1 实现细节

G.2 数据集细节

ASQA Stelmakh 等人 (2023)

QAMPARI Amouyal 等人 (2023)

ELI5 Fan 等人 (2019)

ExpertQA Malaviya 等人 (2024)

G.3 基线

G.3.1 上下文学习 (ICLCite)

G.3.2 事后搜索 Gao 等人 (2023b) (PostCite)

G.3.3 事后属性 Gao 等人 (2023a) (PostAttr)

G.3.4 Self-RAG Asai 等人 (2024)

G.3.5 FRONT Huang 等人 (2024b)

G.4 拒绝检测

在基于检索的生成 (RAG) 中度量和增强 LLM 的可信度

通过基于证据的归因和学习拒绝

获得 $\mathbf{r^{+}}$ 。

获得 $\mathbf{r^{-}}$ 。

信任对齐提高了可信度，相比基线方法更胜一筹。

信任对齐提高了模型的拒绝能力。

信任对齐增强了模型的引用质量。

Trust-Align 对 EM ${}^{\text{F1}}_{\text{AC}}$ 影响 mixed。

接地拒绝 [ $\text{F1}_{\text{RG}}$ ]:

准确匹配（答案校准） [EM^F1_AC]:

基于引文的 F1 分数 [F1_CG]:

获取 $r^{+}$ 。

获取 $r^{-}$ 。