我们对数学知识的索引和检索文献进行了简短的调查,其中包括 72 篇论文的链接以及检索问题和重复技术的初步分类法 ...

0 0 0 0 2024/10/28 arXiv:1505.06646v3 18812680264

在线评估中的数学应用题 (MWP) 有助于测试学习者通过解释其中的语言信息进行批判性推理的能力。为了测试学习者的数学推理能力,有时会重新表述问题或改变原始MWP的主题设置。由于手动识别具有相似问题模型的 MWP 很麻烦,因此我们在这项工作中提出了一种用于 MWP 检索的工具 ...

0 0 0 0 2024/10/28 arXiv:2307.01240v1 18812680264

尽管在检测学术剽窃方面付出了努力,但它仍然是所有学科中普遍存在的问题。人们已经开发了各种工具来帮助人工检查员自动识别可疑文件。然而,据我们所知,目前这些工具都没有使用数学内容进行分析 ...

0 0 0 0 2024/10/28 arXiv:1801.08439v1 18812680264

最近的工作表明,通过管理高质量和多样化的指令调整数据集,我们可以显着提高指令跟踪能力。然而,创建此类数据集很困难,并且大多数作品依赖于手动管理或专有语言模型。自动数据管理很困难,因为我们仍然不清楚如何定义指令调整的多样性、多样性和质量如何相互依赖以及如何优化数据集质量和多样性 ...

0 0 0 0 2024/10/28 arXiv:2311.14736v2 18812680264

基于模型的评估是成功模型开发的核心——作为训练的奖励模型,并替代人工评估。为了训练这样的评估者,标准方法是收集大量人类对模型响应的偏好判断,这是昂贵的,而且随着模型的改进,数据会变得陈旧。在这项工作中,我们提出了一种方法,旨在仅使用合成训练数据来改进评估器,而无需人工注释 ...

0 0 0 0 2024/09/08 arXiv:2408.02666v2 18812680264

使用自然数学语言(人类使用的符号语言和自然语言的混合体)理解和创造数学是推动机器学习进步的一个具有挑战性且重要的问题。作为朝这个方向迈出的一步,我们开发了 NaturalProofs,这是一个用自然数学语言编写的数学陈述及其证明的多领域语料库。 NaturalProofs 统一了广泛覆盖范围、深度覆盖范围和低资源数学源,允许评估分布内泛化和零样本泛化 ...

0 0 0 0 2024/09/05 arXiv:2104.01112v2 18812680264

现有的研究主要集中于开发强大的语言学习模型(LLM),用于单语语言中的数学推理,而很少探索在多语言环境中保持有效性。为了弥补这一差距,本文开创性地探索和培训强大的多语言数学推理 (xMR) LLM 。首先,通过翻译,我们构建了第一个多语言数学推理指令数据集 MGSM8KInstruct,包含十种不同的语言,从而解决了 xMR 任务中训练数据稀缺的问题 ...

0 0 0 0 2024/09/05 arXiv:2310.20246v4 18812680264

我们引入了 Goat,这是一种经过微调的 LLaMA 模型,在一系列算术任务上其性能显着优于 GPT-4。 Goat 在综合生成的数据集上进行了微调,在 BIG-bench 算术子任务上实现了最先进的性能。特别是,零射击的 Goat-7B 可以达到甚至超过少射击 PaLM-540B 所达到的精度 ...

0 0 0 0 2024/09/05 arXiv:2305.14201v1 18812680264

许多智力活动需要解决数学问题,但这种技能仍然超出了计算机的能力。为了衡量机器学习模型中的这种能力,我们引入了 MATH,这是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。 MATH 中的每个问题都有完整的分步解决方案,可用于训练模型生成答案推导和解释 ...

0 1 0 0 2024/09/05 arXiv:2103.03874v2 18812680264

将问题分解为中间步骤在大型语言模型 (LLM) 推理中表现出了令人印象深刻的性能。然而,推理链的增长带来了不确定性和误差累积,使得得出准确的最终结果变得具有挑战性。为了应对多步推理中不确定性的挑战,我们引入了逐步自我评估机制来指导和校准 LLM 的推理过程 ...

0 0 0 0 2024/09/02 arXiv:2305.00633v3 18812680264

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)