chrisxiong的文档

chrisxiong

个性签名 ...

TextArena

TextArena是基于文本的游戏的开源集，用于培训和评估大语言模型（LLMS）的代理行为。它跨越了57多个独特的环境（包括单人游戏，两人和多玩家设置），并允许通过在线游戏系统（针对人类和其他提交的模型）轻松评估模型功能，并具有实时的Trueskill分数。传统基准很少评估动态的社交技能，例如谈判，思想理论和欺骗，从而造成了Textarena解决的差距 ...

0 0 0 0 2025/05/22 arXiv:2504.11442v1 chrisxiong

KORGym: A Dynamic Game Platform for LLM Reasoning Evaluation

大语言模型（LLMS）的最新进展强调了对更全面的评估方法的需求，以准确评估其推理能力。现有的基准通常是特定于领域的，因此无法完全捕获LLM的一般推理潜力。为了解决这一限制，我们介绍了知识正交推理体育馆（Korgym），这是一个受Kor-Bench和Gymnasium启发的动态评估平台 ...

0 0 0 0 2025/05/22 arXiv:2505.14552v2 chrisxiong

Not All Correct Answers Are Equal: Why Your Distillation Source Matters

蒸馏已成为一种实用有效的方法，以增强开源语言模型的推理能力。在这项工作中，我们通过从三个最先进的教师模型 - 思考-V1，QWEN3-235B-A22B和DeepSeek-r1-R1-On收集经过验证的输出，对推理数据蒸馏进行了大规模的实证研究 ...

0 0 0 0 2025/05/22 arXiv:2505.14464v1 chrisxiong

An Agent Framework for Real-Time Financial Information Searching with Large Language Models

财务决策需要处理大量的实时信息，同时了解其复杂的时间关系。尽管传统搜索引擎在提供实时信息访问方面表现出色，但他们经常努力理解复杂的用户意图和上下文细微差别。相反，大型语言模型（LLMS）展示了推理和交互功能，但可能会产生不可靠的输出，而无需访问当前数据 ...

0 0 0 0 2025/05/22 arXiv:2502.15684v1 chrisxiong

On the generalization of language models from in-context learning and finetuning: a controlled study

大型语言模型表现出令人兴奋的功能，但可以表现出较狭窄的限制，从而表现出较窄的概括。例如 ...

0 0 0 0 2025/05/22 arXiv:2505.00661v2 chrisxiong

Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

大型语言模型（LLM）通常在需要精确，可验证的计算的数学推理任务上挣扎。尽管从基于结果的奖励获得的加强学习（RL）增强了基于文本的推理，但了解代理如何自主学习利用诸如代码执行（例如代码执行）仍然至关重要。我们研究了基于结果的奖励的RL，以用于工具集成推理，Zerotir，培训基础LLMS，以自发生成和执行Python代码，以解决数学问题，而无需监督的工具使用示例 ...

0 0 0 0 2025/05/22 arXiv:2505.07773v2 chrisxiong

Group-in-Group Policy Optimization for LLM Agent Training

基于小组的增强学习（RL）的最新进展已在数学推理等单转任务中驱动了前沿模型（LLMS）。但是，它们对长跑LLM代理训练的可伸缩性仍然有限。与静态任务不同，代理环境的互动在许多步骤中展开，并且通常会产生稀疏或延迟的奖励，从而使各个步骤的信贷分配变得更加具有挑战性 ...

0 0 0 0 2025/05/20 arXiv:2505.10978v1 chrisxiong

DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning

复杂数学推理的能力是人工智能的关键基准。虽然应用于LLM的加强学习（RL）表现出希望，但由于缺乏足够挑战的大规模培训数据，进步受到了极大的阻碍，具有适合RL的可验证答案格式，并且没有评估基准的污染。为了解决这些限制，我们引入了DeepMath-103K，这是一个新的大规模数据集，其中包括大约103K数学问题，专门设计用于通过RL训练先进的推理模型 ...

0 0 0 0 2025/05/19 arXiv:2504.11456v1 chrisxiong

PLANET: A Collection of Benchmarks for Evaluating LLMs' Planning Capabilities

计划对代理商和代理AI是核心。计划的能力，例如 ...

0 0 0 0 2025/05/18 arXiv:2504.14773v1 chrisxiong

Climbing the Ladder of Reasoning: What LLMs Can-and Still Can't-Solve after SFT?

最近有监督的微调方法（SFT）方法显着改善了语言模型在数学推理任务上的表现，即使模型是小规模培训的。但是，通过这种微调增强的特定功能仍然很少理解。在本文中，我们对AIME24数据集上的模型性能进行了详细的分析，以了解推理能力的发展方式 ...

0 0 0 0 2025/05/15 arXiv:2504.11741v1 chrisxiong