TextArena是基于文本的游戏的开源集,用于培训和评估大语言模型(LLMS)的代理行为。它跨越了57多个独特的环境(包括单人游戏,两人和多玩家设置),并允许通过在线游戏系统(针对人类和其他提交的模型)轻松评估模型功能,并具有实时的Trueskill分数。传统基准很少评估动态的社交技能,例如谈判,思想理论和欺骗,从而造成了Textarena解决的差距 ...

0 0 0 0 2025/05/22 arXiv:2504.11442v1 chrisxiong

大语言模型(LLMS)的最新进展强调了对更全面的评估方法的需求,以准确评估其推理能力。现有的基准通常是特定于领域的,因此无法完全捕获LLM的一般推理潜力。为了解决这一限制,我们介绍了知识正交推理体育馆(Korgym),这是一个受Kor-Bench和Gymnasium启发的动态评估平台 ...

0 0 0 0 2025/05/22 arXiv:2505.14552v2 chrisxiong

蒸馏已成为一种实用有效的方法,以增强开源语言模型的推理能力。在这项工作中,我们通过从三个最先进的教师模型 - 思考-V1,QWEN3-235B-A22B和DeepSeek-r1-R1-On收集经过验证的输出,对推理数据蒸馏进行了大规模的实证研究 ...

0 0 0 0 2025/05/22 arXiv:2505.14464v1 chrisxiong

财务决策需要处理大量的实时信息,同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色,但他们经常努力理解复杂的用户意图和上下文细微差别。相反,大型语言模型(LLMS)展示了推理和交互功能,但可能会产生不可靠的输出,而无需访问当前数据 ...

0 0 0 0 2025/05/22 arXiv:2502.15684v1 chrisxiong

大型语言模型表现出令人兴奋的功能,但可以表现出较狭窄的限制,从而表现出较窄的概括。例如 ...

0 0 0 0 2025/05/22 arXiv:2505.00661v2 chrisxiong

大型语言模型(LLM)通常在需要精确,可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习(RL)增强了基于文本的推理,但了解代理如何自主学习利用诸如代码执行(例如代码执行)仍然至关重要。我们研究了基于结果的奖励的RL,以用于工具集成推理,Zerotir,培训基础LLMS,以自发生成和执行Python代码,以解决数学问题,而无需监督的工具使用示例 ...

0 0 0 0 2025/05/22 arXiv:2505.07773v2 chrisxiong

基于小组的增强学习(RL)的最新进展已在数学推理等单转任务中驱动了前沿模型(LLMS)。但是,它们对长跑LLM代理训练的可伸缩性仍然有限。与静态任务不同,代理环境的互动在许多步骤中展开,并且通常会产生稀疏或延迟的奖励,从而使各个步骤的信贷分配变得更加具有挑战性 ...

0 0 0 0 2025/05/20 arXiv:2505.10978v1 chrisxiong

复杂数学推理的能力是人工智能的关键基准。虽然应用于LLM的加强学习(RL)表现出希望,但由于缺乏足够挑战的大规模培训数据,进步受到了极大的阻碍,具有适合RL的可验证答案格式,并且没有评估基准的污染。为了解决这些限制,我们引入了DeepMath-103K,这是一个新的大规模数据集,其中包括大约103K数学问题,专门设计用于通过RL训练先进的推理模型 ...

0 0 0 0 2025/05/19 arXiv:2504.11456v1 chrisxiong

计划对代理商和代理AI是核心。计划的能力,例如 ...

0 0 0 0 2025/05/18 arXiv:2504.14773v1 chrisxiong

最近有监督的微调方法(SFT)方法显着改善了语言模型在数学推理任务上的表现,即使模型是小规模培训的。但是,通过这种微调增强的特定功能仍然很少理解。在本文中,我们对AIME24数据集上的模型性能进行了详细的分析,以了解推理能力的发展方式 ...

0 0 0 0 2025/05/15 arXiv:2504.11741v1 chrisxiong

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)