奖励重要事项：面向任务对话的逐步强化学习

Huifang Du^*
Tongji University
duhuifang@tongji.edu.cn
&Shuqin Li^*
Hangzhou Dianzi University
shuqinlee9683@gmail.com
&Minghao Wu
Monash University
minghao.wu@monash.edu
Xuejing Feng
Tongji University
fengxuejing@tongji.edu.cn
&Yuan-Fang Li
Monash University
yuanfang.li@monash.edu
&Haofen Wang
Tongji University
carter.whfcarter@gmail.com

摘要

强化学习 (RL) 是一种增强面向任务对话 (TOD) 系统的强大方法。然而，现有的 RL 方法倾向于主要关注生成任务，例如对话策略学习 (DPL) 或响应生成 (RG)，而忽略了用于理解的对话状态跟踪 (DST)。这种狭隘的关注限制了系统通过忽略理解和生成之间的相互依赖性来实现全局最优性能。此外，RL 方法面临着稀疏和延迟奖励的挑战，这使得训练和优化变得复杂。为了解决这些问题，我们通过在整个符元生成过程中引入逐步奖励，将 RL 扩展到理解和生成任务。理解奖励随着 DST 中填充更多槽位而增加，而生成奖励随着准确包含用户请求而增长。我们的方法提供了一种与任务完成相一致的平衡优化。实验结果表明，我们的方法有效地提高了 TOD 系统的性能，并在三个广泛使用的数据集上取得了新的最先进结果，包括 MultiWOZ2.0、MultiWOZ2.1 和 In-Car。与现有模型相比，我们的方法在低资源环境中也表现出更强的少样本能力。

Huifang Du^* Tongji University duhuifang@tongji.edu.cn Shuqin Li^* Hangzhou Dianzi University shuqinlee9683@gmail.com Minghao Wu Monash University minghao.wu@monash.edu

Xuejing Feng Tongji University fengxuejing@tongji.edu.cn Yuan-Fang Li Monash University yuanfang.li@monash.edu Haofen Wang Tongji University carter.whfcarter@gmail.com

¹ ¹脚注文本：这些作者对这项工作贡献相同。

Refer to caption — 图 1：面向任务的对话系统需要成功地执行理解和生成才能实现其对话目标。

1 引言

预训练语言模型 (PLMs) 的快速发展已经极大地影响了各种现实世界中的应用 Devlin 等人 (2018)；Raffel 等人 (2020)；Chung 等人 (2024)。其中，面向任务的对话 (TOD) 系统的开发尤为引人注目 Wen 等人 (2017)；Hosseini-Asl 等人 (2020)。通常，TOD 系统包含几个组件 He 等人 (2022b)；Feng 等人 (2023)，如 Figure 1 所示，包括用于理解用户信念状态的对话状态跟踪 (DST) Chen 等人 (2020)；Guo 等人 (2023)、用于生成对话行为的对话策略学习 (DPL) Zhao 等人 (2024)；Zhang 等人 (2019) 以及用于生成系统响应的响应生成 (RG) Pei 等人 (2020)；Chen 等人 (2019)。最近，人们越来越关注基于 PLMs 构建端到端 (E2E) TOD 系统，以便为模型配备所有这些基本功能 He 等人 (2022b)；Hosseini-Asl 等人 (2020)；Feng 等人 (2023)；Yu 等人 (2023)。

基于前面讨论的 TOD 系统的进步，最近的研究探索了使用离线强化学习 (RL) 来进一步优化 TOD 系统学习面向目标的对话策略 Lu 等人 (2019)；Jang 等人 (2021)；Feng 等人 (2023)。然而，当前的 RL 方法通常侧重于增强生成组件，例如生成对话行为 (DPL 任务) Li 等人 (2023) 或系统响应 (RG 任务) Yu 等人 (2023)。这种偏向性的关注，通过忽略理解和生成之间至关重要的相互依赖关系，阻止了系统达到最佳性能。此外，用于 TOD 系统的 RL 经常面临稀疏和延迟奖励的问题 Lu 等人 (2019)；Abdulhai 等人 (2023)，这些奖励仅在对话或回合级别达到目标时才会提供 Kwan 等人 (2023)；Lu 等人 (2019)；Abdulhai 等人 (2023)。这导致 RL 的探索不足和训练不稳定。虽然许多努力试图减轻这些奖励问题以提供密集奖励，但这些方法中奖励函数的设计往往很复杂，这可能会限制方法的泛化 Li 等人 (2020)；Feng 等人 (2023)。

在这项工作中，我们建议设计一个简单但有效的奖励函数，以在端到端中联合优化理解和生成组件的方式来实现全局最优性能。我们建议在每个符元生成期间组合理解奖励和生成奖励，以逐步加强学习步骤。理解奖励是 DST 过程中正确填充的槽位的增长比例，而生成奖励则通过 DPL 和 RG 过程中正确包含用户请求来衡量。我们使用两个模型骨干，Flan-T5 基础模型和 Flan-T5 大型模型 Chung 等人 (2024)，在三个广泛使用的基准测试中进行了广泛的实验：MultiWOZ2.0、MultiWOZ2.1 和 In-Car。结果表明，我们的方法显着提高了模型性能，优于强大的基线，并建立了新的最先进的结果。我们还表明，我们的方法在低资源条件下优于当前模型，突出了其在数据有限的现实世界场景中的适应性。

我们对这项工作的贡献总结如下：

•

我们介绍了一种新方法，将 RL 整合到理解（DST）和生成（DPL 和 RG）组件中，以端到端的方式，从而促进 TOD 系统的平衡优化。
•

为了解决 TOD 系统中 RL 的稀疏和延迟奖励的挑战，我们提出了一种组合奖励机制，在令牌生成期间提供逐步反馈。这种逐步奖励显着提高了效率。
•

实验结果表明，我们的方法在多个基准测试（MultiWOZ2.0、MultiWOZ2.1 和 In-Car）上取得了新的最先进的结果。此外，该方法在资源匮乏的情况下表现出优越的性能。

2 相关工作

在本节中，我们将回顾利用管道和 E2E 方法的 TOD 系统的工作，强化学习 (RL) 的集成以及为 RL 设计奖励函数。此外，我们还讨论了大型语言模型 (LLM) 在 TOD 系统中的作用。

管道和端到端方法。

管道方法的特点是其模块化结构，其中对话状态跟踪 (DST) Chen 等人（2020）；Guo 等人（2023）、对话策略学习 (DPL) Zhao 等人（2024）；Zhang 等人（2019）和响应生成 (RG) Pei 等人（2020）；Chen 等人（2019）按顺序处理。它们提供了可解释性和模块化，但通常难以捕捉对话的整体上下文 Kwan 等人（2023）。相反，E2E 方法直接将输入话语映射到系统响应，而没有显式的中间表示 He 等人（2022b）；Yang 等人（2021）；He 等人（2022a）。一些模型，例如 SPACE-3 He 等人（2022a）、UBAR Yang 等人（2021）和 PPTOD Su 等人（2022a），通过预训练和微调将所有子任务重组为单个序列预测。但是，监督微调 (SFT) 更侧重于在令牌级别学习，而不是特定要求，这限制了模型完成特定任务的能力。

基于 RL 的策略学习。

RL 可以通过将其调整为 TOD 任务的特定要求来增强模型性能。然而，由于动作空间很大且奖励稀疏，RL 模型面临挑战 Feng 等人（2023）；Zhang 等人（2019）；Wu 等人（2019）。一些研究使用深度强化学习 (DRL) 方法，例如深度 Q 网络 (DQN) Peng 等人（2018）；Jang 等人（2021），以改进模拟用户交互的策略。分层 RL (HRL) 将任务分解为子任务，创建策略层次结构 Peng 等人（2017）；Liu 等人（2020），而封建 RL (FRL) 则抽象化状态和动作空间以获得更通用的策略 Gao 等人（2018）；Casanueva 等人（2018）。这些方法主要集中在对话策略学习上，采用复杂的算法设计，并且往往缺乏对用户意图的深入理解，导致性能欠佳。

TOD 的奖励设计。

最近的研究发现，离线 RL 是一种很有前景的方法，可以利用静态数据集来稳定训练 Snell 等人（2023）；Feng 等人（2023）。遵循离线原则，许多方法在实现目标时设计对话和回合级别的奖励 Kwan 等人（2023）；Lu 等人（2019）；Tang 等人（2018），但奖励信号仍然稀疏。逆向强化学习 (IRL) 和奖励塑造技术已被引入以学习更密集的奖励并鼓励更快地学习 Li 等人（2020）；Takanobu 等人（2019）。然而，IRL 的计算量可能很大，如果奖励塑造设计不当，可能会导致意外行为 Arora 和 Doshi（2021）；Gupta 等人（2024）。或者，一些方法对每个符元都采用奖励，这可能缺乏对对话目标的语义意义 Yu 等人（2023）；Gupta 等人（2024）。我们的方法提供直接针对对话目标的渐进奖励。

用于 TOD 的大型语言模型。

LLM 在理解和生成各种任务的文本方面已展现出令人印象深刻的能力 Ouyang 等人（2022a）；OpenAI（2023）；Chowdhery 等人（2023）；Wu 等人（2024c）。然而，与专门的任务特定模型相比，LLM 的表现不佳 Hudeček 和 Dušek（2023）；Li 等人（2023）；Wu 等人（2024b）。为特定任务微调 LLM 在计算上效率也很低。所有这些原因都导致人们越来越关注提示工程方法，这些方法利用上下文学习，而无需更新参数 Wei 等人（2022）；Wang 等人（2022）；Yao 等人（2024）；Wu 等人（2024a）。然而，LLM 的性能仍然往往较差 Yang 等人（2024）。

3 预备知识

3.1 用于 TOD 的监督微调

TOD 任务通常被建模为一个 E2E 问题，并通过使用监督微调（SFT）的 seq2seq 模型（例如，T5）来解决。模型的输入可以表示为 $\text{I}_{t}=[\text{prefix}:u_{t-1}:bs_{t-1}:da_{t-1}:sr_{t-1}:u_{t}]$ ，其中 $[\cdot:\cdot]$ 表示连接运算符， $u_{t}$ 表示当前用户话语， $bs_{t-1}$ 、 $da_{t-1}$ 和 $sr_{t-1}$ 分别表示第 $t-1$ 轮的信念状态（BS）、对话行为（DA）和系统响应（SR）。前缀指令是“将对话翻译成信念状态、对话行为和系统响应：[输入]”。对模型进行微调以最大限度地提高在给定输入的情况下，连续生成正确 BS、DA 和 SR 的可能性：

\mathcal{L}_{\theta}=\sum_{t=1}^{T}\log P(bs_{t},da_{t},sr_{t}\mid\text{I}_{t}% ;\theta),

(1)

其中 $\theta$ 表示模型的参数。

3.2 用于 TOD 的强化学习

正式地说，用于 TOD 任务的 RL 方法在马尔可夫决策过程 (MDP) Kaelbling 等人 (1998) 中运行，其特征是元组 $\langle S,A,P,R,\gamma\rangle$ 。状态空间 $S$ 可以表示为状态集 $\mathbf{s}_{i}=\{s_{1},s_{2},\ldots,s_{k}\}$ ，其中每个状态都包括对话上下文和截至当前时间步的历史记录。对话中的每一轮都被视为一个独立的事件。操作 $a_{\Delta t}\in A$ 是事件期间采取的第 $\Delta t$ 个操作，它对应于在对话中选择下一个符号。转移概率 $P(s^{\prime}\mid s,a)$ 是在给定操作 $a$ 和状态 $s$ 的情况下转移到状态 $s^{\prime}$ 的概率。折扣因子 $\gamma\in[0,1]$ 用于权衡未来的奖励。 SFT 模型用于初始化策略网络 $\pi$ ，该策略网络随后被优化以最大限度地提高奖励 $R$ ，使用诸如近端策略优化 (PPO) Schulman 等人 (2017) 之类的算法。

4 主要方法

我们旨在通过结合 SFT 和 RL 来增强 TOD 系统。虽然 SFT 可以为 RL 提供一个稳定的初始基础 Ramamurthy 等人 (2023); Yu 等人 (2023); Li 等人 (2023)，但它平等地对待每个地面真实符元作为目标，而没有优先考虑特定任务的目标。我们利用 RL 来细化模型，以优化任务完成。

在 TOD 任务中，准确理解用户需求（即信念状态）对于生成适当的对话行为至关重要，而对话行为对于生成满足当前需求并有效推动对话前进的系统响应至关重要。但是，现有的 RL 方法通常只关注优化对话策略学习 Li 等人 (2023); Takanobu 等人 (2020) 或响应生成 Yu 等人 (2023)，而忽略了理解的重要性以及理解和生成之间的相互依赖性。此外，这些方法通常在对话或轮次级别使用稀疏奖励 Kwan 等人 (2023); Lu 等人 (2019); Tang 等人 (2018); Abdulhai 等人 (2023)。

任务完成指标评估模型是否正确生成了对话模式中定义的可告知和可请求的槽值，反映了其在理解和生成任务中的性能。策略模型的序列生成过程涉及持续满足这些列表。受这些指标的启发，我们假设在理解和生成任务的符元生成过程中提供渐进的以任务为导向的奖励可以增强 TOD 系统。模型架构和我们的奖励函数如图 Figure 2 所示。在 Section 4.1 中，我们将解释如何测量这些指标以支持我们的奖励函数设计。在 Section 4.2 中，我们将展示我们的奖励函数如何提供持续的、逐步的反馈，引导 E2E 模型完成理解和生成任务，从而构建一个更连贯、更响应的对话系统。

4.1 任务完成指标

在诸如 In-Car 和 MultiWOZ 等数据集的对话目标中，通常会预先定义可告知列表和可请求列表。可告知列表包含表示用户需求的槽位及其值。例如，用户对餐厅的偏好由“价格范围”槽位上的“便宜”值来表征。 Inform 指标评估系统是否准确地学习了用户需求，如可告知列表中定义的那样，然后提供合适的实体作为响应。可请求列表包含用户请求的值，例如“邮政编码”。 Success 指标衡量生成的 DAs 或 SRs 是否包含可请求列表中的所有属性。因此，我们认为，从可告知列表中推导出的特定于槽位-值的奖励可以增强系统对用户需求的理解，而基于可请求列表的特定于值的奖励可以提高对用户请求的响应能力。因此，我们介绍了一种渐进奖励函数的设计，该函数结合了 DST 的理解奖励以及 DPL 和 RG 的生成奖励。

4.2 逐步面向目标的奖励

理解奖励。

我们通过测量在符元（动作）生成过程中 可告知 列表中正确识别出的槽位-值对的比例来设计 DST 的理解奖励。此奖励函数直接反映了系统对用户需求的理解程度，这与 DST 的目标密切相关。形式上，我们将 $SV_{gt}$ 表示为当前轮次的真实槽值集合，将 $\hat{SV}$ 表示为符元生成过程中的预测槽值集合：

R_{u}=\frac{|SV_{gt}\cap\hat{SV}|\cdot\rho_{u}}{|SV_{gt}|},

(2)

其中 $\rho_{u}=\exp\left(-\alpha\cdot\frac{|SV_{gt}\setminus\hat{SV}|}{|SV_{gt}|}\right)$ 表示对预测的槽值对数量与真实槽值对数量之间差异的惩罚， $\alpha$ 是一个可调参数，用于控制此惩罚的敏感度。该函数提供了一个密集的奖励，它逐步反映了 DST 的准确性。

生成奖励。

我们观察到，DPL 和 RG 的准确性取决于它们生成的值中有多少被正确地包含在 可请求 列表中。因此，我们将这两个生成任务设置为相同的奖励函数。 DPL 和 RG 的奖励是在每次符元生成过程中，在用户 可请求 列表中包含的值越来越多，这衡量了系统持续满足用户请求的能力。形式上， $S_{gt}$ 是当前轮次中所有真实的用户请求值， $\hat{S}$ 表示符元生成过程中的预测值：

R_{g}=\frac{|S_{gt}\cap\hat{S}|\cdot\rho_{g}}{|S_{gt}|},

(3)

其中惩罚项 $\rho_{g}=\exp\left(-\beta\cdot\frac{|S_{gt}\setminus\hat{S}|}{|S_{gt}|}\right)$ 对生成的值数量与真实可请求列表中的值数量之间的差异进行惩罚， $\beta$ 是一个可调参数，用于控制此惩罚的敏感度。该函数提供了一个密集的奖励，它逐步反映了生成完成的程度。

TOD 奖励。

为了提供一个全面的奖励来评估理解和生成性能，我们将 TOD 奖励定义为理解奖励 $R_{u}$ 和生成奖励 $R_{g}$ 的加权组合：

R_{tod}=\frac{|SV_{gt}\cap\hat{SV}|\cdot\rho_{u}+|S_{gt}\cap\hat{S}|\cdot\rho_% {g}}{|SV_{gt}|+|S_{gt}|}.

(4)

综合奖励函数鼓励对理解（DST）和生成（DPL、RG）进行平衡优化，从而增强 TOD 系统的全局鲁棒性。使用从可告知和可请求列表中得出的密集奖励，确保了在符元级生成期间的持续反馈。与仅在对话结束时提供反馈的稀疏奖励不同，我们的方法提供了逐步奖励，从而加速了学习过程。基于差异 $\rho_{u}$ 和 $\rho_{g}$ 的奖励的渐进性质有助于实现增量改进。

奖励塑造。

为了防止策略网络 $\pi$ 偏离初始模型 $\pi_{\text{o}}$ 太远，我们还添加了一个 KL 约束来平衡奖励。正式来说，最终的 RL 奖励函数为：

R_{total}=R_{t}-\beta D_{KL}({\pi}\parallel{\pi_{\text{o}}}),

(5)

其中 $\beta$ 在训练期间动态调整。

优化。

我们使用自然语言策略优化 (NLPO) Ramamurthy 等人 (2023)，它是 PPO 的扩展。 NLPO 通过参数化掩蔽方法将动作消除纳入其中。它学习使用 top-p 采样来屏蔽掉不太相关的符元，这将符元集限制为累积概率高于指定阈值的符元。 NLPO 维持一个单独的掩蔽策略，该策略定期更新，提供额外的约束以确保选择更与任务相关的动作。

Method	MultiWOZ2.0				MultiWOZ2.1				In-Car
Method	Inform	Succ.	BLEU	Comb.	Inform	Succ.	BLEU	Comb.	Match	SuccF1	BLEU	Comb.
E2E
SimpleTOD	84.4	70.1	15.0	092.3	85.0	70.5	15.2	093.0	-	-	-	-
DoTS	86.6	74.1	15.1	095.5	86.7	74.2	15.9	096.3	-	-	-	-
PPTOD	89.2	79.4	18.6	102.9	87.1	79.1	19.2	102.3	-	-	-	-
UBAR^†	85.1	71.0	16.2	94.3	86.2	70.3	16.5	094.7	-	-	-	-
LABES	-	-	-	-	76.9	63.3	17.9	088.0	85.8	77.0	22.8	104.2
SPACE-3^∗∗	88.7	78.7	16.3	100.0	90.9	81.0	16.8	102.7	84.7	79.6	18.6	100.7
SPACE-3	95.3	88.0	19.3	111.0	95.6	86.1	19.9	110.8	85.3	83.2	22.9	107.1
GALAXY^∗	93.1	81.0	18.4	105.5	93.5	81.7	18.3	105.9	81.9	83.3	22.0	104.6
GALAXY	94.4	85.3	20.5	110.4	95.3	86.2	20.0	110.8	85.3	83.6	23.0	107.4
RL
MinTL	84.9	74.9	17.9	097.8	-	-	-	-	-	-	-	-
GPT-Critic	90.1	76.6	17.8	101.1	-	-	-	-	-	-	-	-
FanReward	93.1	83.9	18.0	106.5	-	-	-	-	-	-	-	-
Ours_base	92.1	88.3	16.6	106.9	92.7	88.5	16.2	106.8	84.3	83.8	22.8	106.9
Ours_large	96.1	92.4	17.2	111.5	96.9	91.1	16.9	110.9	86.2	86.1	23.0	109.2

Model	Inform	Succ.	BLEU	Comb.
Ours	96.1	92.4	17.2	111.5
$-R_{u}$	91.2	87.0	16.1	105.2
$-R_{g}$	92.1	87.5	15.6	105.4
$-R_{u}-R_{g}$	86.0	81.8	17.2	101.1

Method	MultiWOZ2.0
Method	Inform	Succ.	BLEU	Comb.
Codex^†	76.7	41.5	07.7	66.8
ChatGPT^†	71.8	44.1	010.5	68.4
Claude	78.3	41.2	02.9	62.7
GPT-4o	77.0	53.1	05.2	70.3
DSP w/ ChatGPT^†	95.3	82.3	10.9	99.6
Ours w/ ChatGPT	95.1	91.2	09.8	102.9
Ours_large	96.1	92.4	17.2	111.5

奖励重要事项：面向任务对话的逐步强化学习

摘要

1 引言

2 相关工作

管道和端到端方法。

基于 RL 的策略学习。

TOD 的奖励设计。

用于 TOD 的大型语言模型。

3 预备知识

3.1 用于 TOD 的监督微调

3.2 用于 TOD 的强化学习

4 主要方法

4.1 任务完成指标

4.2 逐步面向目标的奖励

理解奖励。

生成奖励。

TOD 奖励。

奖励塑造。

优化。

5 实验

5.1 数据集

5.2 评估指标

5.3 基线

5.4 主要结果

5.5 消融研究

6 分析与讨论

6.1 低资源评估

6.2 与 LLM 的集成

6.3 人工评估

7 结论

8 局限性

参考文献

附录 A 实施细节

SFT 细节。

RL 细节。

模型和实现细节。

附录 B 奖励曲线

附录 C 案例研究

附录 D 错误示例