arxiv AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

名称
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence
首页
https://yiyibooks.cn/arxiv/2502.13943v1/index.html
原始地址
https://arxiv.org/pdf/2502.13943
描述
当前的培训过程奖励模型(PRM)的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤,例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实:特定单词通常不会标记文本中的真实决策点。为了解决这个问题,我们提出了Adpaptivestep,该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...