arxiv Self-Consistency Preference Optimization

名称
Self-Consistency Preference Optimization
首页
https://yiyibooks.cn/arxiv/2411.04109v2/index.html
原始地址
https://arxiv.org/pdf/2411.04109
描述
自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...