黑色小熊饼干的文档

黑色小熊饼干

个性签名 ...

SlimPajama-DC: Understanding Data Combinations for LLM Training

本文旨在了解各种数据组合（例如网络文本、维基百科、github、书籍）对使用 SlimPajama 训练大型语言模型的影响 ...

0 0 0 0 2024/04/26 arXiv:2309.10818v2 黑色小熊饼干

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

大型语言模型在许多 NLP 任务上取得了显着进展，研究人员正在转向更大的文本语料库来训练它们。一些最大的可用语料库是通过抓取互联网的重要部分而创建的，并且通常只用最少的文档进行介绍。在这项工作中，我们提供了 Colossal Clean Crawled Corpus 的一些第一份文档（C4；Raffel 等人） ...

0 0 0 0 2024/04/26 arXiv:2104.08758v2 黑色小熊饼干

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

在本文中，我们揭示了语言模型 (LM) 可以通过同源模型中的参数来获取新功能，而无需重新训练或 GPU。我们首先引入 DARE 来设置大多数增量参数（即 ...

0 0 0 0 2024/04/10 arXiv:2311.03099v2 黑色小熊饼干

InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions

指令调优可有效优化下游任务的大型语言模型 (LLM)。由于现实生活中应用环境的不断变化， LLM 需要不断针对特定任务进行适应，以免发生灾难性遗忘。考虑到巨大的计算成本，基于重播的持续学习（CL）方法是 LLM 解决遗忘问题最简单且最广泛使用的方法 ...

0 0 0 0 2024/04/01 arXiv:2403.11435v1 黑色小熊饼干

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

随着大型语言模型 (LLM) 性能的不断提高，其规模也显着扩大，当前的 LLM 包含数十亿甚至数万亿的参数。然而，在这项研究中，我们发现LLM的许多层表现出高度相似性，并且某些层在网络功能中发挥的作用可以忽略不计。基于这一观察，我们定义了一个称为区块影响力（BI）的指标来衡量 LLM 中每一层的重要性 ...

0 0 0 0 2024/03/29 arXiv:2403.03853v2 黑色小熊饼干

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

最近的进展表明，扩展大型视觉语言模型 (LVLM) 可以有效提高下游任务性能。然而，现有的缩放方法使得所有模型参数对于计算中的每个标记都有效，这带来了大量的训练和推断成本。在这项工作中，我们提出了一种简单而有效的 LVLM 训练策略 MoE-Tuning ...

0 0 0 0 2024/04/08 arXiv:2401.15947v3 黑色小熊饼干

SlimPajama-DC: Understanding Data Combinations for LLM Training

Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus

Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

InsCL: A Data-efficient Continual Learning Paradigm for Fine-tuning Large Language Models with Instructions

ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）