本文旨在了解各种数据组合(例如网络文本、维基百科、github、书籍)对使用 SlimPajama 训练大型语言模型的影响 ...

0 0 0 0 2024/04/26 arXiv:2309.10818v2 黑色小熊饼干

大型语言模型在许多 NLP 任务上取得了显着进展,研究人员正在转向更大的文本语料库来训练它们。一些最大的可用语料库是通过抓取互联网的重要部分而创建的,并且通常只用最少的文档进行介绍。在这项工作中,我们提供了 Colossal Clean Crawled Corpus 的一些第一份文档(C4;Raffel 等人) ...

0 0 0 0 2024/04/26 arXiv:2104.08758v2 黑色小熊饼干

在本文中,我们揭示了语言模型 (LM) 可以通过同源模型中的参数来获取新功能,而无需重新训练或 GPU。我们首先引入 DARE 来设置大多数增量参数(即 ...

0 0 0 0 2024/04/10 arXiv:2311.03099v2 黑色小熊饼干

指令调优可有效优化下游任务的大型语言模型 (LLM)。由于现实生活中应用环境的不断变化, LLM 需要不断针对特定任务进行适应,以免发生灾难性遗忘。考虑到巨大的计算成本,基于重播的持续学习(CL)方法是 LLM 解决遗忘问题最简单且最广泛使用的方法 ...

0 0 0 0 2024/04/01 arXiv:2403.11435v1 黑色小熊饼干

随着大型语言模型 (LLM) 性能的不断提高,其规模也显着扩大,当前的 LLM 包含数十亿甚至数万亿的参数。然而,在这项研究中,我们发现LLM的许多层表现出高度相似性,并且某些层在网络功能中发挥的作用可以忽略不计。基于这一观察,我们定义了一个称为区块影响力(BI)的指标来衡量 LLM 中每一层的重要性 ...

0 0 0 0 2024/03/29 arXiv:2403.03853v2 黑色小熊饼干

最近的进展表明,扩展大型视觉语言模型 (LVLM) 可以有效提高下游任务性能。然而,现有的缩放方法使得所有模型参数对于计算中的每个标记都有效,这带来了大量的训练和推断成本。在这项工作中,我们提出了一种简单而有效的 LVLM 训练策略 MoE-Tuning ...

0 0 0 0 2024/04/08 arXiv:2401.15947v3 黑色小熊饼干

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)