/documents/812/
基本信息
文件基本信息
名称
dpo
描述
Direct Preference Optimization: Your Language Model is Secretly a Reward Model