基于模型的评估是成功模型开发的核心——作为训练的奖励模型,并替代人工评估。为了训练这样的评估者,标准方法是收集大量人类对模型响应的偏好判断,这是昂贵的,而且随着模型的改进,数据会变得陈旧。在这项工作中,我们提出了一种方法,旨在仅使用合成训练数据来改进评估器,而无需人工注释 ...
使用自然数学语言(人类使用的符号语言和自然语言的混合体)理解和创造数学是推动机器学习进步的一个具有挑战性且重要的问题。作为朝这个方向迈出的一步,我们开发了 NaturalProofs,这是一个用自然数学语言编写的数学陈述及其证明的多领域语料库。 NaturalProofs 统一了广泛覆盖范围、深度覆盖范围和低资源数学源,允许评估分布内泛化和零样本泛化 ...
现有的研究主要集中于开发强大的语言学习模型(LLM),用于单语语言中的数学推理,而很少探索在多语言环境中保持有效性。为了弥补这一差距,本文开创性地探索和培训强大的多语言数学推理 (xMR) LLM 。首先,通过翻译,我们构建了第一个多语言数学推理指令数据集 MGSM8KInstruct,包含十种不同的语言,从而解决了 xMR 任务中训练数据稀缺的问题 ...
我们引入了 Goat,这是一种经过微调的 LLaMA 模型,在一系列算术任务上其性能显着优于 GPT-4。 Goat 在综合生成的数据集上进行了微调,在 BIG-bench 算术子任务上实现了最先进的性能。特别是,零射击的 Goat-7B 可以达到甚至超过少射击 PaLM-540B 所达到的精度 ...
许多智力活动需要解决数学问题,但这种技能仍然超出了计算机的能力。为了衡量机器学习模型中的这种能力,我们引入了 MATH,这是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。 MATH 中的每个问题都有完整的分步解决方案,可用于训练模型生成答案推导和解释 ...
将问题分解为中间步骤在大型语言模型 (LLM) 推理中表现出了令人印象深刻的性能。然而,推理链的增长带来了不确定性和误差累积,使得得出准确的最终结果变得具有挑战性。为了应对多步推理中不确定性的挑战,我们引入了逐步自我评估机制来指导和校准 LLM 的推理过程 ...
我们提出了 Llemma,一种大型数学语言模型。我们继续在 Proof-Pile-2 上对 Code Llama 进行预训练,Proof-Pile-2 是科学论文、包含数学的网络数据和数学代码的混合物,产生 Llemma。在 MATH 基准上,Llemma 的性能优于所有已知的开放基础模型,以及在等参数基础上未发布的 Minerva 模型套件 ...
提高语言模型与人类偏好的一致性仍然是一个活跃的研究挑战。以前的方法主要通过在线强化学习方法(例如近端策略优化(PPO))利用人类反馈强化学习(RLHF)。最近,序列似然校准 (SLiC) 和直接偏好优化 (DPO) 等离线方法已成为有吸引力的替代方案,在保持竞争性能的同时提高了稳定性和可扩展性 ...