liuweitang的文档

MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

在作为大型语言模型（LLMS）的可行补充时，检索授权的一代（RAG）经常忽略其管道中文本块的关键方面。本文最初引入了一种双重评估方法，包括边界清晰度和块状粘性，以实现直接量化质量的量化。利用这种评估方法，我们强调了传统和语义块在处理复杂的上下文细微差别中的固有局限性，从而证实了将LLMS整合到块状过程中的必要性 ...

0 0 0 0 2025/03/16 arXiv:2503.09600v1 liuweitang

2 OLMo 2 Furious

我们提出了Olmo 2，这是我们完全开放的语言模型的下一代。 Olmo 2包括具有改进的体系结构和培训配方，预处理数据混合物和指导调整配方的密集自回旋模型。我们修改的模型架构和培训配方既可以实现更好的训练稳定性，又提高了人均效率 ...

0 0 0 0 2025/03/14 arXiv:2501.00656v2 liuweitang

Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

有效使用测试时间计算的培训模型对于改善LLM的推理性能至关重要。当前方法主要通过在搜索轨迹上进行微调或以0/1结果奖励运行RL进行操作，但是这些方法是否有效地利用了测试时间计算？随着预算的改善，这些方法会继续扩展吗？在本文中，我们尝试回答这些问题。我们将优化测试时间计算作为元强制学习（RL）问题的问题形式化，该问题提供了用于支出测试时间计算的原则观点 ...

0 0 0 0 2025/03/13 arXiv:2503.07572v1 liuweitang

MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning

大型语言模型（LLMS）在现有的医学提问基准测试中表现出令人印象深刻的表现。这种高性能使评估和区分先进方法变得越来越困难。我们提出了MedagentsBench，这是一个基准，该基准侧重于挑战医学问题，需要多步临床推理，诊断制定和治疗计划 - 赛季里奥斯，尽管它们在标准测试方面表现出色，但目前的模型仍在挣扎 ...

0 0 0 0 2025/03/12 arXiv:2503.07459v1 liuweitang

What is the Alignment Objective of GRPO?

在本说明中，我们研究了通过小组政策优化（GRPO）算法实现的偏好的聚合，这是一种培训高级人工智能模型（例如DeepSeek-R1-Zero and DeepSeekmath）的增强学习方法。 GRPO算法使用奖励偏好模型训练策略，该策略是通过为给定上下文对一组输出进行采样，观察相应的奖励，并将换档标准化应用于这些奖励值。此外，它结合了惩罚功能，以阻止与参考政策的偏差 ...

0 0 0 0 2025/03/12 arXiv:2502.18548v2 liuweitang

Ever: Mitigating Hallucination in Large Language Models through Real-Time Verification and Rectification

大型语言模型（LLM）表现出非常熟练的熟练程度。但是，他们经常遇到产生不准确或幻觉的内容的挑战。这个问题在非基于基于反应的一代和检索效果的生成方法中都是常见的，现有的事后整流方法可能无法解决“滚雪球”问题可能引起的累积幻觉错误，尤其是在推理任务中 ...

0 0 0 0 2025/03/12 arXiv:2311.09114v2 liuweitang

DSVD: Dynamic Self-Verify Decoding for Faithful Generation in Large Language Models

大型语言模型的可靠性仍然是一个关键的挑战，尤其是由于它们在文本生成过程中对幻觉和事实不准确的敏感性。现有的解决方案要么通过预先策略的自我纠正不足，要么使用昂贵的事后验证。为了进一步探索实时自我验证和校正的潜力，我们提出了动态自我验证解码（DSVD），这是一个新型的解码框架，可通过实时幻觉检测和有效的误差校正来增强产生可靠性 ...

0 0 0 0 2025/03/11 arXiv:2503.03149v1 liuweitang

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

推理语言模型表明，通过“思考更长”来提高测试时间的性能的不可思议的能力，也就是说，通过生成更长的经过思考序列的序列，从而使用更多的计算。但是，他们的经营推理的长度是不可控制的，因此无法分配测试时间计算以达到所需的性能水平。我们介绍了长度受控策略优化（LCPO），这是一种简单的增强学习方法，可优化准确性和遵守用户指定的长度约束 ...

0 0 0 0 2025/03/10 arXiv:2503.04697v1 liuweitang

From Informal to Formal -- Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs

基于AI的正式数学推理的研究表明，增长趋势不可阻挡。这些研究在IMO等数学竞赛中表现出色，并取得了重大进展。本文着重于正式验证，正式推理的直接应用方案，并将其分解为子任务 ...

0 0 0 0 2025/03/08 arXiv:2501.16207v3 liuweitang

DeepRetrieval: Powerful Query Generation for Information Retrieval with Reinforcement Learning

信息检索系统对于有效访问大型文档收集至关重要。最近的方法利用了大型语言模型（LLM）来通过查询增强来提高检索性能，但通常依靠需要大量计算资源和手工标记数据的昂贵监督学习或蒸馏技术。在本文中，我们介绍了DeepRetReval，这是一种基于新颖的增强学习方法，该方法训练LLMS通过反复试验直接通过反复试验进行查询增强，而无需监督数据 ...

0 0 0 0 2025/03/06 arXiv:2503.00223v1 liuweitang