个性签名 ...
我们提出了 Llemma,一种大型数学语言模型。我们继续在 Proof-Pile-2 上对 Code Llama 进行预训练,Proof-Pile-2 是科学论文、包含数学的网络数据和数学代码的混合物,产生 Llemma。在 MATH 基准上,Llemma 的性能优于所有已知的开放基础模型,以及在等参数基础上未发布的 Minerva 模型套件 ...
提高语言模型与人类偏好的一致性仍然是一个活跃的研究挑战。以前的方法主要通过在线强化学习方法(例如近端策略优化(PPO))利用人类反馈强化学习(RLHF)。最近,序列似然校准 (SLiC) 和直接偏好优化 (DPO) 等离线方法已成为有吸引力的替代方案,在保持竞争性能的同时提高了稳定性和可扩展性 ...