大型语言模型(LLM)拥有广泛的世界知识和强大的通用推理能力,但它们很难从标准机器学习(ML)任务的许多上下文示例中学习,即纯粹通过上下文学习(ICL)而不是梯度下降来利用多镜头演示。我们推出 MachineLearningLM,这是一种便携式持续预训练框架,为通用 LLM 提供强大的上下文 ML 功能,同时保留其一般知识和推理以适应更广泛的聊天工作流程。我们的预训练程序从数百万个结构因果模型 (SCM) 中综合了 ML 任务,涵盖的镜头数高达 1,024 ...

0 0 0 0 2025/10/09 arXiv:2509.06806v5 mlp

本文通过使用思维轨迹来增强现有文本数据来提高大语模型(LLM)培训的数据效率(LLM)培训的数据效率。训练前LLM的计算以前所未有的速度增长,而高质量数据的可用性仍然有限。因此,最大化可用数据的实用性构成了重大的研究挑战 ...

0 0 0 0 2025/09/28 arXiv:2509.20186v2 mlp

模型合并已成为增强大型语言模型的一种有希望的技术,尽管它在大规模的预训练中的应用仍然相对尚未探索。在本文中,我们对训练过程中的模型合并技术进行了全面研究。通过对量表和混合物(MOE)的广泛实验,范围从数百万到1000亿多个参数,我们证明,与持续学习率进行训练的检查点不仅可以实现显着的绩效提高,而且还可以准确预测退火行为 ...

0 0 0 0 2025/05/27 arXiv:2505.12082v3 mlp

Am-Deepseek-R1启动是一个大规模数据集,具有一般推理任务的思维痕迹,由高质量和挑战性的推理问题组成。这些问题是从多种开源数据集中收集的,受到语义重复数据删除和细致的清洁,以消除测试集污染。数据集中的所有响应都从推理模型(主要是DeepSeek-R1)中提取,并具有严格的验证程序 ...

0 0 0 0 2025/03/26 arXiv:2503.19633v1 mlp

由于面向代理的预训练数据缺乏,基于LLM的自主剂通常依赖于复杂的提示或广泛的微调,这通常无法引入新的功能,同时保持强大的可推广性。我们介绍了Hephaestus-Forge,这是第一个旨在增强LLM代理在API函数调用,内在推理和计划中以及适应环境反馈的大规模训练之前的大规模训练前语料库。 Hephaestus-Forge包括103B特定于特定于代理的数据,其中包括76,537个API,包括既有工具文档,都可以介绍API功能的知识和功能呼叫轨迹以增强内在推理 ...

0 0 0 0 2025/02/12 arXiv:2502.06589v1 mlp

语言模型预培训语料库中存在的样式,域和质量水平的大量多样性对于发展通用模型功能至关重要,但是在这些异构数据源中,有效地学习和部署正确的行为是具有挑战性的。为了解决这个问题,我们提出了一种新方法,称为元数据调节,然后冷却(MECO),以在预训练期间结合其他学习提示。 Meco首先提供元数据(e ...

0 0 0 0 2025/02/07 arXiv:2501.01956v1 mlp

现有的幽默数据集和评估主要集中在英语上,在诸如中文等非英语语言中为文化细微差别的幽默留下了有限的资源。为了解决这一差距,我们构建了Chumor,这是第一个超过现有幽默数据集大小的中国幽默解释数据集。 Chumor源自Ruo Zhi Ba,这是一个类似于中国Reddit的平台,以分享具有智力挑战性和文化特定的笑话而闻名 ...

0 0 0 0 2025/02/07 arXiv:2412.17729v1 mlp