arxiv Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning

名称
Rewarding Progress: Scaling Automated Process Verifiers for LLM Reasoning
首页
https://yiyibooks.cn/arxiv/2410.08146v1/index.html
原始地址
https://arxiv.org/pdf/2410.08146
描述
改善大语模型推理的一种有希望的方法是使用过程奖励模型(PRMS)。 PRM在多步推理跟踪的每个步骤中提供反馈,从而有可能改善仅在最后一步提供反馈的结果奖励模型(ORM)的信用分配。但是,收集密集的每步人类标签是不可扩展的,迄今为止,来自自动标记数据的训练PRM导致了有限的增长 ...