一译 —— 文档和论文翻译、对照阅读、讨论和社区

No Need for Explanations: LLMs can implicitly learn from mistakes in-context

对大语言模型（LLMS）显示不正确的答案是提高其在推理密集型任务中的表现的流行策略。人们普遍认为，为了有所帮助，错误的答案必须伴随着全面的理由，明确详细介绍了错误的位置以及如何纠正错误。但是，在这项工作中，我们提出了一个违反直觉的发现：我们观察到，当从上下文中消除这些理由时，LLM在数学推理任务中的表现更好，而模型则可以自己推断出使错误的答案有缺陷的原因 ...

0 0 0 2025/09/07 arXiv:2502.08550v2 leesongzero

Combining Difficulty Ranking with Multi-Armed Bandits to Sequence Educational Content

随着电子学习系统变得越来越普遍，他们越来越需要适应学生之间的个体差异。本文解决了如何向学生个性化教育内容的问题，以最大程度地提高他们的学习收益。我们提出了一种称为枫（Maple）的新计算方法（用于学习环境的多臂匪徒个性化），将难度排名与多臂匪徒结合在一起 ...

0 0 0 2025/09/07 arXiv:1804.05212v1 Shylie

Towards a Unified View of Large Language Model Post-Training

培训后现代语言模型存在两个主要的培训数据来源：在线（模型生成的推出）数据和离线（人类或其他模型演示）数据。这两种类型的数据通常由加固学习（RL）和监督微调（SFT）等方法使用。在本文中，我们表明这些方法不是矛盾的，而是单个优化过程的实例 ...

0 0 0 2025/09/07 arXiv:2509.04419v1 smpublic

LEMMA: Learning from Errors for MatheMatical Advancement in LLMs

大型语言模型（LLM）在解决数学问题方面表现出了出色的推理能力。但是，现有方法主要集中于提高正确的培训数据的质量，例如 ...

0 0 0 2025/09/07 arXiv:2503.17439v2 leesongzero

Boosting LLM Reasoning via Spontaneous Self-Correction

尽管大型语言模型（LLMS）在各种任务上都取得了巨大的成功，但数学推理仍然是一个挑战性的。改进数学推理的方法之一是自我纠正，该方法设计自我提高循环以使模型纠正自己的错误。但是，现有的自我纠正方法将校正视为独立的后发出改进，依靠额外的提示和系统设计来引起自我校正，而不是在单个通过中进行实时自发的自我校正 ...

0 0 0 2025/09/07 arXiv:2506.06923v1 leesongzero

OneReward: Unified Mask-Guided Image Generation via Multi-Task Human Preference Learning

在本文中，我们介绍了OneReard，这是一个统一的增强学习框架，可在不同的评估标准下仅使用\ textit {一个奖励}模型在不同的评估标准下增强模型的生成能力。通过采用单一视觉模型（VLM）作为生成奖励模型，该模型可以区分给定任务的获胜者和失败者以及给定的评估标准，它可以有效地应用于多任务生成模型，尤其是在具有多样的数据和多样化目标目标的上下文中。我们利用屏蔽引导的图像生成，可以将其进一步分为 ...

0 0 0 2025/09/07 arXiv:2508.21066v1 smallz

CaPo: Cooperative Plan Optimization for Efficient Embodied Multi-Agent Cooperation

在这项工作中，我们解决了基于大语言模型（LLM）体现的代理商之间的合作问题，在该机构中，代理必须合作以实现共同的目标。以前的方法通常在没有长期的战略和合作计划的情况下即时和不连贯地执行行动，导致冗余步骤，失败，甚至在复杂的任务中产生严重的影响，例如搜索和撤退任务，讨论和合作计划至关重要。为了解决此问题，我们提出合作计划优化（CAPO），以提高基于LLM的体现药物的合作效率 ...

0 0 0 2025/09/07 arXiv:2411.04679v2 蔡明方

MaskSAM: Towards Auto-prompt SAM with Mask Classification for Volumetric Medical Image Segmentation

任何模型（SAM）是自然图像分割的及时驱动的基础模型（SAM），已显示出令人印象深刻的零击性能。但是，由于SAM缺乏预测语义标签的能力，需要额外的提示，并且表现出次优性能，因此SAM直接应用于医疗图像分割时不起作用。遵循上述问题，我们提出了MaskSAM，这是一种新型的Mask分类，及时无需SAM适应框架，用于医疗图像分割 ...

0 0 0 2025/09/07 arXiv:2403.14103v2 mixiu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）