18812680264的文档

18812680264

个性签名 ...

Generalist Reward Models: Found Inside Large Language Models

大语言模型（LLM）的一致性严重取决于接受昂贵人类偏好数据训练的奖励模型。尽管最近的工作探索了通过AI反馈绕过这一成本的探索，但这些方法通常缺乏严格的理论基础。在本文中，我们发现，通过标准的下一步预测培训的任何LLM中，强大的通才奖励模型已经潜在地存在 ...

0 0 0 0 2025/07/02 arXiv:2506.23235v1 18812680264

RocketEval: Efficient Automated LLM Evaluation via Grading Checklist

在各种和挑战性的场景中评估大型语言模型（LLM）对于与人类偏好保持一致至关重要。为了减轻与人类评估相关的高昂成本，利用强大的LLM作为法官成为一种受欢迎的方法。然而，这种方法遇到了一些挑战，包括大量费用，对隐私和安全性以及可重复性的担忧 ...

0 0 0 0 2025/06/20 arXiv:2503.05142v1 18812680264

MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning

在大型语言模型（LLM）的数学推理中，通过查询进化和多种推理路径的微调数据增强是有效验证的，可以深刻地缩小开源LLM和尖端专有LLM之间的差距。在本文中，我们进行了数学推理中此类数据增强的调查，并旨在回答：（1）哪些数据增强策略更有效；（2）增强数据和模型性能的量之间的缩放关系是什么？（3）数据增强是否可以激励对跨域数学推理任务的概括？为此，我们通过使查询和多样化的查询和采样从GSM8K和MATH的多种推理路径进行复杂化，创建两个新的数据集AUGGSM8K和AUGMATH。我们通过Auggsm8k和Augmath上的微调Llama模型获得了一系列名为Mugglemath的LLM ...

0 0 0 0 2025/06/18 arXiv:2310.05506v3 18812680264

Unleashing the Reasoning Potential of Pre-trained LLMs by Critique Fine-Tuning on One Problem

我们目睹了QWEN-MATH，MIMO和PHI-4等强的LLM具有从训练前阶段继承的巨大推理潜力。通过加强学习（RL），这些模型可以在推理任务上显着改善。最近的研究表明，即使是单个问题的RL也可以释放这些模型的推理能力 ...

0 0 0 0 2025/06/12 arXiv:2506.03295v2 18812680264

One-shot Entropy Minimization

我们培训了13,440个大语言模型，发现熵最小化仅需要一个未标记的数据和10个步骤优化，以实现与使用数千个数据和基于规则的增强学习中精心设计的奖励相当甚至更大的性能改进。这个惊人的结果可能会促使大型语言模型重新思考训练后范例。我们的代码在此HTTPS URL上可用 ...

0 0 0 0 2025/06/12 arXiv:2505.20282v3 18812680264

Reinforcement Learning for Reasoning in Large Language Models with One Training Example

我们表明，使用一个培训示例（1-Shot RLVR）通过可验证的奖励进行增强学习可以有效激励大语言模型（LLMS）的数学推理能力。将RLVR应用于基本模型QWEN2.5-MATH-1 ...

0 0 0 0 2025/05/29 arXiv:2504.20571v2 18812680264

On Memorization of Large Language Models in Logical Reasoning

大型语言模型（LLM）在挑战推理基准方面取得了良好的性能，但也可能犯基本的推理错误。当涉及到LLMS推理能力背后的机制时，这种对比行为令人困惑。一个假设是，在常见推理基准上越来越高且几乎饱和的性能可能是由于对类似问题的记忆所致 ...

0 0 0 0 2025/02/27 arXiv:2410.23123v1 18812680264

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

在本文中，我们介绍了 AceMath，这是一套擅长解决复杂数学问题的前沿数学模型，以及能够评估生成的解决方案并可靠地识别正确解决方案的高效奖励模型。为了开发指令调整的数学模型，我们提出了一种监督微调（SFT）过程，首先在一般领域实现有竞争力的表现，然后使用一组精心策划的提示和综合生成的响应对数学领域进行有针对性的微调。由此产生的模型 AceMath-72B-Instruct 的性能大大优于 Qwen2 ...

0 0 0 0 2024/12/24 arXiv:2412.15084v1 18812680264

LoRA Learns Less and Forgets Less

低秩适应（LoRA）是一种广泛用于大型语言模型的参数高效微调方法。 LoRA 通过仅训练对选定权重矩阵的低秩扰动来节省内存。在这项工作中，我们比较了 LoRA 和完全微调在两个目标领域（编程和数学）上的性能 ...

0 0 0 0 2024/11/22 arXiv:2405.09673v2 18812680264

Instruction Mining: Instruction Data Selection for Tuning Large Language Models

大型语言模型 (LLM) 最初针对广泛的功能进行预训练，然后使用指令跟踪数据集进行微调，以提高其与人类交互的性能。尽管微调方面取得了进步，但选择高质量数据集来优化此过程的标准化指南仍然难以捉摸。在本文中，我们首先提出了 InstructMining，这是一种创新方法，旨在自动选择优质指令跟踪数据来微调 LLM ...

1 1 0 0 2024/10/29 arXiv:2307.06290v3 18812680264