大型语言模型的发展导致了预训练然后对齐范式的形成,其中模型通常在大型文本语料库上进行预训练,并经历调整阶段以使模型与人类偏好或下游任务保持一致。在这项工作中,我们通过微调多个中间预训练模型检查点来研究预训练和微调之间的关系。我们在 18 个数据集上的结果表明,i) 持续的预训练以潜在的方式改进了模型,并在微调后显现出来; ii)通过额外的微调,模型未表现出能力的数据集比模型在预训练阶段表现良好的数 ...
0 0 0 2025/04/19 arXiv:2408.06663v5 luxiaoti
(ai)的发展,llm)在许多领域得到广泛应用。但是llm在数学推理方面的推理能力还是很有限的。数学在人类社会的各个方面发挥着重要作用,是医疗保健、交通运输和航空航天等领域的技术保障,因此数学领域的人工智能大语言模型的发展具有巨大的潜在意义... ...
0 0 0 2025/04/19 arXiv:2408.01779v1 fclong
(“理解” 世界。人类经验可以通过正常学习(我们称之为显性知识)(或潜意识(我们称之为隐性知识)来学习。这些通过正常学习或潜意识学到的经验会被编码并存储在大脑中)来学习。这些通过正常学习或潜意识学到的经验会被编码并存储在大脑中... ...
0 0 0 2025/04/19 arXiv:2105.04206v1 KingXHJ
 Transformer 模型已在广泛的应用中表现出非凡的性能。尽管构成了 Transformer 模型的基础,但点产生的关注并不能很好地扩展到长篇小说数据,因为其时间要求随上下文长度而倍增。在这项工作中,我们提出了雷达,这是一种无训练的方法,通过动态搜索最重要的上下文 Token 来加速推理 ...
0 0 0 2025/04/19 arXiv:2503.10571v1 jiangnan
从见证的组成中学习原始的(即属性和对象)概念是组成零摄入学习(CZSL)的主要挑战 ...
0 0 0 2025/04/19 arXiv:2502.06501v2 wozengyi
细分任何2(SAM2)启用使用分割的鲁棒单对象跟踪。为了将其扩展到多对象跟踪(MOT),我们提出了SAM2MOT,并通过分割范式引入了一种新颖的跟踪。与通过检测或通过查询跟踪跟踪,SAM2MOT直接生成从分割掩码的跟踪框,从而降低了对检测准确性的依赖 ...
0 0 1 2025/04/19 arXiv:2504.04519v2 silent
动态神经网络是深度学习的新兴研究主题。通过自适应推断,动态模型可以实现出色的准确性和计算效率。但是,设计一个强大的动态检测器是一项挑战,因为没有合适的动态体系结构和退出对象检测标准 ...
0 0 0 2025/04/19 arXiv:2304.05552v1 19396386025
在本文中,我们解决了一个基本问题:“我们可以以端到端的方式训练潜在扩散模型以及变异自动编码器(VAE) Token 吗?”传统的深入学习智慧表明,在可能的情况下通常可以端对端训练。但是,对于潜在扩散 Transformer ,可以观察到使用标准扩散损失的端到端训练VAE和扩散模型无效,甚至导致最终性能降解。我们表明,尽管扩散损失是无效的,但可以通过表示形式对准(REPA)损失来解锁端到端训练 -  ...
0 0 0 2025/04/19 arXiv:2504.10483v1 flynnamy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)