chrisxiong的文档

chrisxiong

个性签名 ...

Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning

多模式代理将控制器（例如，视觉语言模型）与外部工具集成在一起，在解决复杂的多模式任务方面具有显着的功能 ...

0 0 0 0 2025/06/02 arXiv:2504.21561v3 chrisxiong

Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs

大型语言模型表现出了令人印象深刻的推理能力，但本质上受其知识库的限制。通过允许LLM查询外部资源来检索启动的推理可以减轻这种限制，但是现有方法通常会检索无关紧要或嘈杂的信息，从而阻碍了准确的推理。在本文中，我们提出了AutoreFine，这是一种增强培训后的培训后框架，采用了新的``搜索''d-Refine-distring-Inkink''范式 ...

0 0 0 0 2025/06/02 arXiv:2505.11277v2 chrisxiong

HopWeaver: Synthesizing Authentic Multi-Hop Questions Across Text Corpora

多跳的问题回答（MHQA）对于评估该模型可以整合来自不同来源的信息的能力至关重要。但是，创建广泛而高质量的MHQA数据集很具有挑战性：（i）手动注释很昂贵，（ii）当前的合成方法通常会产生简单的问题或需要大量的手动指导。本文介绍了Hopweaver，这是第一个自动框架综合了无人干预的非结构化文本语料库中真实的多跳问题 ...

0 0 0 0 2025/06/01 arXiv:2505.15087v1 chrisxiong

Search Wisely: Mitigating Sub-optimal Agentic Searches By Reducing Uncertainty

通过启用动态，多步电推理和信息检索，代理检索效果生成（RAG）系统可以增强大语言模型（LLMS）。但是，这些系统经常表现出次优的搜索行为，例如过度搜索（检索冗余信息）和搜索不足（未能检索必要的信息），这阻碍了效率和可靠性。这项工作正式定义并量化了这些行为，揭示了它们在多个QA数据集和代理抹布系统中的流行率（e ...

0 0 0 0 2025/05/30 arXiv:2505.17281v1 chrisxiong

Effectively Controlling Reasoning Models through Thinking Intervention

推理增强大语模型（LLMS）在生成最终答案之前明确生成了中间的推理步骤，从而帮助模型在复杂的问题解决方面表现出色。在本文中，我们证明了这个新兴生成框架为对模型行为进行更细粒度的控制提供了独特的机会。我们提出了思维干预措施，这是一种新颖的范式，旨在通过策略性地插入或修改特定思维 Token 来明确指导LLM的内部推理过程 ...

0 0 0 0 2025/05/28 arXiv:2503.24370v3 chrisxiong

GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning

强化学习（RL）可以直接增强大语言模型的推理能力，而无需广泛依赖监督微调（SFT）。在这项工作中，我们重新审视了传统的政策梯度（PG）机制，并提出了一种简约的RL方法，称为团体策略梯度（GPG）。与常规方法不同，GPG直接优化了原始RL目标，从而避免了对替代损失函数的需求 ...

0 0 0 0 2025/05/28 arXiv:2504.02546v3 chrisxiong

Pass@K Policy Optimization: Solving Harder Reinforcement Learning Problems

增强学习（RL）算法对每个问题进行了多个n> 1的解决方案尝试并独立奖励它们。这可以优化通过@1性能，并优先考虑隔离样品的强度，而牺牲了一组样本的多样性和集体效用。这不足以使采样能力限制，限制了探索并最终改善了更艰难的例子 ...

0 0 0 0 2025/05/28 arXiv:2505.15201v1 chrisxiong

Navigate the Unknown: Enhancing LLM Reasoning with Intrinsic Motivation Guided Exploration

强化学习（RL）已成为提高大语模型（LLMS）推理能力的关键方法。但是，由于依赖基于结果的奖励和激励探索的机制不足，诸如近端策略优化（PPO）和群体注册政策优化（GRPO）之类的普遍RL方法面临关键限制。这些限制导致多步推理过程效率低下的指导 ...

0 0 0 0 2025/05/28 arXiv:2505.17621v2 chrisxiong

Visual Agentic Reinforcement Fine-Tuning

大型推理模型（例如OpenAI的O3）的关键趋势是使用外部工具（例如Web浏览器）进行搜索和编写/执行代码进行图像操作以使用图像进行思考的本地代理能力 ...

0 0 0 0 2025/05/27 arXiv:2505.14246v1 chrisxiong

Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities

增强学习（RL）已成为培训推理模型的有效方法。但是，现有的RL方法通常会使模型的输出分布偏向奖励最大化路径，而无需引入外部知识。与基本模型相比，这限制了他们的勘探能力，并导致推理能力边界更窄 ...

0 0 0 0 2025/05/27 arXiv:2505.15692v2 chrisxiong