18812680264的文档

18812680264

个性签名 ...

Llemma: An Open Language Model For Mathematics

我们提出了 Llemma，一种大型数学语言模型。我们继续在 Proof-Pile-2 上对 Code Llama 进行预训练，Proof-Pile-2 是科学论文、包含数学的网络数据和数学代码的混合物，产生 Llemma。在 MATH 基准上，Llemma 的性能优于所有已知的开放基础模型，以及在等参数基础上未发布的 Minerva 模型套件 ...

0 0 0 0 2024/09/05 arXiv:2310.10631v3 18812680264

Statistical Rejection Sampling Improves Preference Optimization

提高语言模型与人类偏好的一致性仍然是一个活跃的研究挑战。以前的方法主要通过在线强化学习方法（例如近端策略优化（PPO））利用人类反馈强化学习（RLHF）。最近，序列似然校准 (SLiC) 和直接偏好优化 (DPO) 等离线方法已成为有吸引力的替代方案，在保持竞争性能的同时提高了稳定性和可扩展性 ...

0 0 0 0 2024/09/03 arXiv:2309.06657v2 18812680264

Llemma: An Open Language Model For Mathematics

Statistical Rejection Sampling Improves Preference Optimization

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）