有效利用 GPU 内存对于高吞吐量 LLM 推理至关重要。之前的系统提前为 KV 缓存保留内存,导致内部碎片导致容量浪费。受基于操作系统的虚拟内存系统的启发,vLLM 提出了 PagedAttention 来实现 KV 缓存的动态内存分配 ...

0 0 0 0 2024/05/16 arXiv:2405.04437v1 oscarhscc

最近大型模型的突破凸显了数据规模、标签和模式的关键意义。在本文中,我们介绍了 MS MARCO Web 搜索,这是第一个大规模信息丰富的 Web 数据集,具有数百万个真实点击的查询文档标签。该数据集密切模仿现实世界的网络文档和查询分布,为各种下游任务提供丰富的信息,并鼓励各个领域的研究,例如通用端到端神经索引器模型、通用嵌入模型和下一代信息访问具有大型语言模型的系统 ...

0 0 0 0 2024/05/16 arXiv:2405.07526v1 oscarhscc

生成拥有语义信息的口语词嵌入是一个令人着迷的话题。与基于文本的嵌入相比,它们涵盖了语音和语义特征,可以提供更丰富的信息,并且可能有助于改进 ASR 和语音翻译系统。在本文中,我们回顾并检验了该领域一项开创性工作的真实性:Speech2Vec ...

0 0 0 0 2024/05/15 arXiv:2209.10791v2 oscarhscc

这项工作提出了 BAdam,这是一种优化器,它利用以 Adam 作为内部求解器的块坐标优化框架。 BAdam 提供了一种内存有效的方法来对大型语言模型进行全参数微调,并由于链式规则属性而减少了后向过程的运行时间。实验上,我们使用 BAdam 使用单个 RTX3090-24GB GPU 在 Alpaca-GPT4 数据集上对 Llama 2-7B 模型进行指令调整 ...

0 0 0 0 2024/04/26 arXiv:2404.02827v1 oscarhscc

对长文本进行建模一直是自然语言处理(NLP)领域的一项重要技术。随着长文档数量的不断增加,开发能够处理和分析此类文本的有效建模方法非常重要。然而,长文本具有更复杂的语义和特殊的特征,对现有文本模型提出了重要的研究挑战 ...

0 0 0 0 2024/04/17 arXiv:2302.14502v1 oscarhscc

随着 LLM 参数的扩展,微调整个模型的计算成本变得令人望而却步。为了应对这一挑战,我们引入了 PEFT 方法、主奇异值和奇异向量自适应(PiSSA),它可以优化显着减小的参数空间,同时实现或超越全参数微调的性能。 PiSSA 受到 Intrinsic SAID 的启发,它表明预先训练的、过度参数化的模型存在于低内在维度的空间中 ...

0 0 0 0 2024/04/11 arXiv:2404.02948v1 oscarhscc

我们提出了 QLoRA,这是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 参数模型,同时保留完整的 16 位微调任务性能。 QLoRA 通过冻结的 4 位量化预训练语言模型将梯度反向传播到低阶适配器 (LoRA) 中。我们最好的模型系列(我们将其命名为guanaco)在 Vicuna 基准测试中的表现优于所有之前公开发布的模型,达到 99 ...

0 0 0 0 2024/04/09 arXiv:2305.14314v1 oscarhscc

高效的微调对于使大型语言模型 (LLM) 适应下游任务至关重要。然而,在不同的模型上实现这些方法需要付出很大的努力。我们推出了 LlamaFactory,一个集成了一套尖端高效训练方法的统一框架 ...

0 0 0 0 2024/04/09 arXiv:2403.13372v2 oscarhscc

ChatGLM 是一项免费使用的人工智能服务,由 ChatGLM 大语言模型 (LLM) 系列提供支持。在本文中,我们提出了 ChatGLM-RLHF 管道——一种来自人类反馈的强化学习 (RLHF) 系统——指令ChatGLM-RLHF包含主要三个部分:人类偏好数据的收集、奖励模型的训练和策略的优化…… ... ...

0 0 0 0 2024/04/08 arXiv:2404.00934v2 oscarhscc

我们提出了 LongLoRA,这是一种有效的微调方法,可以扩展预训练大型语言模型 (LLM) 的上下文大小,且计算成本有限。通常,训练具有长上下文大小的 LLM 的计算成本很高,需要大量的训练时间和 GPU 资源。例如,在 8192 的上下文长度上进行训练需要的自注意力层计算成本是 2048 的 16 倍 ...

0 0 0 0 2024/04/09 arXiv:2309.12307v3 oscarhscc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)