多任务学习(MTL)中的优化比单任务学习(STL)变得更加适应,因为不同任务的梯度可能是矛盾的。当任务相关时,在它们之间共享一些参数(合作)可能是有益的然而,某些任务具有特定类型数据或区分(专业化)方面的专业知识的附加参数... ...
Transformers 的二次复杂度和弱长度外推限制了它们扩展到长序列的能力,虽然存在线性注意力和状态空间模型等次二次解决方案,但从经验来看,它们在预训练效率和下游任务准确性方面表现不佳 Transformers。我们引入了 Megalodon,一种用于高效序列建模的神经架构,具有无限的上下文长度。 Megalodon继承了Mega(具有门控注意力的指数移动平均)的架构,并进一步引入了多种技术组件来提高其能力和稳定性,包括复杂指数移动平均(CEMA)、时间步标准化层、标准化注意力机制和具有两个特征的预标准化-hop 剩余配置 ...
生成式大语言模型 (LLM) 的最新创新使其应用程序和用例无处不在。这导致了这些模型的大规模部署,使用复杂、昂贵且耗电的人工智能加速器(最常见的是 GPU)。这些发展使 LLM 的推理效率成为一个重要的挑战 ...
本文介绍了exegpt,这是一种专为约束感知llm推理而设计的分布式系统。exegpt找到并以最佳执行计划运行,以最大限度地提高推理吞吐量,同时满足给定的延迟约束。通过,同时满足给定的延迟约束。通过利用输入和输出序列的分布,它可以有效地分配资源并确定最佳执行配置,包括批量大小和部分张量并行性... ...
传统的任务和运动规划 (TAMP) 方法依赖于手动制作的界面,将符号任务规划与连续运动生成连接起来。这些特定领域和劳动密集型模块在解决现实环境中的新任务方面受到限制。在这里,我们提出了 LLM^3,一种新颖的基于大型语言模型 (LLM) 的 TAMP 框架,具有与域无关的接口 ...
FlashAttention(Dao,2023)在单个 GPU 上训练基于 Transformer 的大型语言模型 (LLM) 时,有效地将二次峰值内存使用量降低为线性。在本文中,我们介绍了 DISTFLASHATTN,这是一种针对长上下文 LLM 训练而优化的分布式内存高效注意力机制。我们提出了三种关键技术: Token 级工作负载平衡、重叠键值通信和重新物化感知的梯度检查点算法 ...
生成式大语言模型 (LLM) 的最新创新使其应用程序和用例无处不在。这导致了这些模型的大规模部署,使用复杂、昂贵且耗电的人工智能加速器(最常见的是 GPU)。这些发展使 LLM 的推理效率成为一个重要的挑战 ...
大型语言模型 (LLM) 的快速增长一直是基于云的 LLM 服务增长的驱动力,这些服务现在是推进人工智能应用程序不可或缺的一部分。然而,LLM服务的动态自回归性质,以及支持超长上下文长度的需要,要求灵活分配和释放大量资源。这给设计基于云的LLM服务系统带来了相当大的挑战,低效的管理可能导致性能下降或资源浪费 ...
大型语言模型 (LLM) 是现代自然语言处理的核心,可在各种任务中提供卓越的性能。然而,它们大量的计算和内存需求带来了挑战,特别是对于 DRAM 容量有限的设备。本文通过将模型参数存储在闪存中,但按需将它们传送到 DRAM,解决了高效运行超出可用 DRAM 容量的 LLM 的挑战 ...
这项工作旨在减少大型语言模型(LLM)的端到端生成延迟。高生成延迟的主要原因之一是几乎所有最先进的 LLM 都采用顺序解码方法。在这项工作中,受人类思维和写作过程的启发,我们提出了思维骨架(SoT),它首先引导LLM生成答案的骨架,然后进行并行API调用或批量解码来完成内容每个骨架点平行 ...