改变预训练模型的行为方式——例如,提高其在下游任务中的性能或减弱预训练期间增益的偏差——是开发机器学习系统时的常见行为... ...
机器所需的一项功能是能够将一个领域的知识转移到数据(通常)稀缺的另一个领域。尽管迁移学习在各种深度学习应用中得到了充分的应用,但我们仍然不知道是什么能够实现成功的迁移,以及网络的哪一部分负责这一过程。在本文中,我们提供了新的工具和分析来解决这些基本问题 ...
最大化模型准确性的传统方法是(1)使用各种超参数训练多个模型,以及(2)选择在保留的验证集上表现最佳的单个模型,丢弃其余模型。在本文中,我们在微调大型预训练模型的背景下重新审视该过程的第二步,其中微调模型通常出现在单个低误差盆地中。我们表明,对使用不同超参数配置进行微调的多个模型的权重进行平均通常可以提高准确性和鲁棒性 ...
我们提出了 Branch-Train-Merge (BTM),这是一种高效通信的算法,用于大型语言模型 (LLM) 的并行训练。我们证明,可以在不同的数据子集上独立训练新型 LLM 的子部分,从而消除目前训练 LLM 所需的大规模多节点同步。 BTM 学习一组独立的专家 LM (ELM),每个专家专门针对不同的文本领域,例如科学或法律文本 ...
标准神经网络很难在计算机的分布变化下进行泛化。幸运的是,组合多个网络可以持续提高分布外泛化能力。特别是,权重平均(WA)策略在竞争性的DomainBed基准测试中表现最佳;尽管存在无形,但它们直接对多个网络的权重进行平均... ...
预训练模型是训练的标准起点。这种方法始终优于使用随机初始化。然而,预训练是一项成本高昂的工作,很少有人能够承担 ...
大型语言模型(LLM)中的上下文学习(ICL)已经成为一种强大的新学习模式。然而,其基本机制仍然是节日。特别是,将其映射到“标准”机器学习框架中,在在框架中,人们使用训练集 $S$ 在某个假设类中找到最适合的函数 $f(x)$ ... ...