- 名称
- Score Regularized Policy Optimization through Diffusion Behavior
- 描述
离线强化学习的最新发展揭示了扩散建模的巨大潜力,它擅长表示异构行为策略。然而,扩散策略的采样速度相当慢,因为一项操作需要数十到数百个迭代推理步骤。为了解决这个问题,我们建议从批评模型和预训练的扩散行为模型中提取有效的确定性推理策略,利用后者在优化过程中直接用行为分布的得分函数正则化策略梯度 ...
离线强化学习的最新发展揭示了扩散建模的巨大潜力,它擅长表示异构行为策略。然而,扩散策略的采样速度相当慢,因为一项操作需要数十到数百个迭代推理步骤。为了解决这个问题,我们建议从批评模型和预训练的扩散行为模型中提取有效的确定性推理策略,利用后者在优化过程中直接用行为分布的得分函数正则化策略梯度 ...