arxiv Process Reward Model with Q-Value Rankings

名称
Process Reward Model with Q-Value Rankings
首页
https://yiyibooks.cn/arxiv/2410.11287v2/index.html
原始地址
https://arxiv.org/abs/2410.11287
描述
过程奖励建模(PRM)对于复杂的推理和决策任务至关重要,中间步骤的准确性显着影响总体结果。现有的PRM方法主要构成分类问题,采用跨凝结损失来独立评估每个步骤的正确性。此方法可以导致次优奖励分布,并且不能充分解决步骤之间的相互依赖性 ...