liuweitang的文档

liuweitang

个性签名 ...

Training a Generally Curious Agent

有效的探索对于与环境相互作用的智能系统至关重要，但是现有的语言模型通常在需要战略信息收集的情况下不足。在本文中，我们提出了一种微调方法，它使语言模型能够开发不限于特定环境的一般决策能力。通过培训来自需要各种策略的不同任务的合成互动数据，Paprika教授模型以基于环境反馈在信中的新任务上探索和调整其行为，而无需更新 ...

0 0 0 0 2025/03/03 arXiv:2502.17543v1 liuweitang

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

大型语言模型（LLMS）改变了自然语言处理景观，并使多样化的应用栩栩如生。在大量的网络规模数据上进行了预处理为这些模型奠定了基础，但是研究界现在越来越多地转移到训练后技术方面，以实现进一步的突破。虽然预处理提供了广泛的语言基础，但培训后方法使LLMS能够完善其知识，提高推理，提高事实准确性，并更有效地与用户的意图和道德注意事项更有效地保持一致 ...

0 2 0 0 2025/03/03 arXiv:2502.21321v1 liuweitang

Smaller Language Models Are Better Instruction Evolvers

指令调整已被广泛用于释放大型语言模型的完全潜力。值得注意的是，复杂而多样化的指示非常重要，因为它们可以有效地将模型与各种下游任务保持一致。但是，在经验假设下，当前构建大规模指令的方法主要支持强大的模型，例如GPT-4或具有超过700亿个参数的模型，这是如此较大的语言模型（LLMS）固有地具有增强的功能 ...

0 0 0 0 2025/03/02 arXiv:2412.11231v1 liuweitang

SoRFT: Issue Resolving with Subtask-oriented Reinforced Fine-Tuning

主流问题解散框架主要依赖商业模型，从而导致高昂的成本和隐私问题。现有的培训方法，以解决概括不良的斗争，无法充分利用开源开发资源。我们提出了以子任务为导向的增强微调（SORFT），这是一种新型的培训方法，以增强解决LLMS的问题 ...

0 0 0 0 2025/03/02 arXiv:2502.20127v1 liuweitang