基本信息 - Self-Consistency Preference Optimization

arxiv Self-Consistency Preference Optimization

阅读

Star 0

名称: Self-Consistency Preference Optimization

首页: https://yiyibooks.cn/arxiv/2411.04109v2/index.html

原始地址: https://arxiv.org/pdf/2411.04109

描述

自对准是一个快速发展的研究领域，模型可以在没有人工注释的情况下学习自我改进。然而，由于难以分配正确的奖励，现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性，这是一种在基于多重采样的推理时应用的方法，以便找到最一致的答案 ...

文件上传进度

0%

上传成功 0 个文件