基本信息 - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

arxiv AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

阅读

Star 0

名称: AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

首页: https://yiyibooks.cn/arxiv/2502.13943v1/index.html

原始地址: https://arxiv.org/pdf/2502.13943

描述

当前的培训过程奖励模型（PRM）的方法通常涉及使用基于规则的技术将响应分解为多个推理步骤，例如使用预定义的占位符 Token 或将推理步骤的长度设置为固定尺寸。这些方法忽略了以下事实：特定单词通常不会标记文本中的真实决策点。为了解决这个问题，我们提出了Adpaptivestep，该方法是根据模型对预测下一个单词的信心来划分推理步骤的方法 ...

0%

上传成功 0 个文件