基本信息 - Process Reward Model with Q-Value Rankings

arxiv Process Reward Model with Q-Value Rankings

阅读

Star 0

名称: Process Reward Model with Q-Value Rankings

首页: https://yiyibooks.cn/arxiv/2410.11287v2/index.html

原始地址: https://arxiv.org/abs/2410.11287

描述

过程奖励建模（PRM）对于复杂的推理和决策任务至关重要，中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题，采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布，并且不能充分解决步骤之间的相互依赖性 ...

文件上传进度

0%

上传成功 0 个文件