chrisxiong的文档

chrisxiong

个性签名 ...

LLF-Bench: Benchmark for Interactive Learning from Language Feedback

我们介绍了一个新的基准LLF基准（从语言反馈基准学习；发音为“ Elf Bench”），以评估AI代理人从自然语言反馈和说明中进行交互性学习的能力。从语言反馈中学习（LLF）对人们至关重要，主要是因为此反馈提供的丰富信息可以帮助学习者避免大部分反复试验，从而加快学习过程。大型语言模型（LLMS）最近使AI代理能够理解自然语言 - 因此，AI代理人可以像人类一样在学习过程中受益于语言反馈 ...

0 0 0 0 2025/04/08 arXiv:2312.06853v2 chrisxiong

DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments

配备了网络搜索功能的大型语言模型（LLM）表现出了深入研究任务的令人印象深刻的潜力。但是，当前的方法主要依赖于在受控检索仪（基于RAG）环境（基于RAG）环境（基于RAG）中的手动工程提示（基于工程的提示）（及时工程），这些提示（基于RAG）无法捕获现实世界互动的复杂性。在本文中，我们介绍了Deepresearcher，这是通过缩放强化增强学习（RL）在具有正宗的Web搜索交互的现实环境中通过缩放增强学习（RL）进行端到端培训的第一个综合框架 ...

0 0 0 0 2025/04/07 arXiv:2504.03160v1 chrisxiong

Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

从人类反馈（RLHF）中学习的强化学习对于使大语模型与人类偏好保持一致至关重要。尽管最近的研究集中在算法改进上，但迅速建筑的重要性被忽略了。本文通过在RLHF性能缩放中探索数据驱动的瓶颈来解决这一差距，尤其是奖励黑客入侵和降低响应多样性 ...

0 0 1 1 2025/04/07 arXiv:2503.22230v3 chrisxiong

Interpreting Emergent Planning in Model-Free Reinforcement Learning

我们提供了第一个机械证据，即无模型的强化学习者可以学会计划。这是通过将基于基于概念的可解释性的方法应用于索科班的无模型代理的方法来实现的，这是一种用于研究计划的常用基准。具体而言，我们证明了DRC是Guez等人引入的无通用模型的代理 ...

0 0 0 0 2025/04/07 arXiv:2504.01871v1 chrisxiong

Agentic Large Language Models, a survey

对代理LLM，充当代理的大型语言模型引起了极大的兴趣。我们回顾了这一领域不断增长的工作体系，并提供了研究议程。代理LLM是（1）原因，（2）ACT和（3）相互作用的LLM ...

0 1 0 0 2025/04/06 arXiv:2503.23037v2 chrisxiong

Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs

在大型语言模型（LLMS）中，代码和推理相互加强：代码提供了一个抽象，模块化和逻辑驱动的结构，支持推理，而推理将高级目标转化为较小的可执行步骤，可驱动更高级的代码智能。在这项研究中，我们研究了代码如何用作增强推理的结构化介质：它提供可验证的执行路径，实施逻辑分解并启用运行时验证。我们还探讨了推理的改进如何使代码智能从基本完成转变为高级功能，从而使模型能够通过计划和调试来解决复杂的软件工程任务 ...

0 0 0 0 2025/04/06 arXiv:2502.19411v1 chrisxiong

Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions

大型语言模型（LLMS）由于其高级理解和计划功能而表现出强大的潜力作为工具调用的代理。用户越来越多地依靠基于LLM的代理来通过迭代互动来解决复杂的任务。但是，现有的基准测试主要访问单个误差方案中的代理，但未能捕获现实世界中的复杂性 ...

0 0 0 0 2025/04/05 arXiv:2504.02623v1 chrisxiong

MCTS-Judge: Test-Time Scaling in LLM-as-a-Judge for Code Correctness Evaluation

LLM-AS-A-Gudge范式显示出评估生成内容的希望，但在推理密集型方案（例如编程）中缺乏可靠性。受推理模型的最新进展和缩放定律的转变的启发，我们开创了将测试时间计算带入LLM-AS-A-Gudge，提出了MCTS-Gudge，这是一个资源效率高，系统-System-System-System-2思维框架，用于代码正确性评估。 MCTS法官利用蒙特卡洛树搜索（MCT）将问题分解为更简单的多人评估 ...

0 0 0 0 2025/04/05 arXiv:2502.12468v1 chrisxiong