- 名称
- Self-Consistency Preference Optimization
- 描述
自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...
自对准是一个快速发展的研究领域,模型可以在没有人工注释的情况下学习自我改进。然而,由于难以分配正确的奖励,现有技术往往无法改善复杂的推理任务。已知可以提高正确性的正交方法是自一致性,这是一种在基于多重采样的推理时应用的方法,以便找到最一致的答案 ...