remaper的文档

remaper

个性签名 ...

HyperAttention: Long-context Attention in Near-Linear Time

我们提出了一种名为 HyperAttention 的近似注意力机制，以解决大型语言模型（LLM）中使用的长上下文日益复杂所带来的计算挑战。最近的工作表明，在最坏的情况下，二次时间是必要的，除非注意矩阵的条目有界或矩阵具有较低的稳定等级。我们引入两个参数来测量：（1）归一化注意力矩阵中的最大列范数，以及（2）检测和删除大条目后非归一化注意力矩阵中行范数的比率 ...

0 0 0 0 2024/09/10 arXiv:2310.05869v3 remaper

SpotServe: Serving Generative Large Language Models on Preemptible Instances

生成式大语言模型（LLM）对计算和内存的高要求使得能够提高的成本能够提供满足需求的服务。本文旨在通过利用现代云上的可抢占式GPU实例来降低服务LLM的货币成本，这些实例以比实例常规便宜分割的价格提供对备用 GPU 的访问，但可能随时被云抢占。在抢占式实例上为 LLM 提供服务需要解决由备份的实例抢占以及迁移实例来处理这些抢占的必要性带来的挑战... ...

0 0 0 0 2024/10/31 arXiv:2311.15566v1 remaper

DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale

过去几年见证了基于 Transformer 的模型的成功，其规模和应用场景持续快速增长。目前Transformer模型的格局日益多样化：模型规模变化很大，最大的参数达到千亿级；由于混合专家引入的稀疏性，模型特征有所不同；目标应用场景可以是延迟关键型或吞吐量导向型；部署硬件可以是具有不同类型内存和存储等的单GPU或多GPU系统。随着 Transformer 模型的多样性不断增加和快速发展，设计高性能和高效的推理系统极具挑战性 ...

0 0 0 0 2024/07/15 arXiv:2207.00032v1 remaper

ServerlessLLM: Locality-Enhanced Serverless Inference for Large Language Models

本文介绍了 ServerlessLLM，这是一种用于大型语言模型 (LLM) 的局部增强型无服务器推理系统。 ServerlessLLM 利用 GPU 服务器上可用的存储和内存设备的大量容量和带宽，从而减少昂贵的远程检查点下载并实现高效的检查点加载。 ServerlessLLM 通过三个主要贡献实现了这一目标：(i) 通过新颖的加载优化检查点格式设计以及高效的多层检查点加载系统来快速加载 LLM 检查点； (ii) 具有实时迁移功能的局部驱动的 LLM 推理，这使得 ServerlessLLM 能够有效地实现局部驱动的服务器分配，同时保持正在进行的 LLM 推理的低延迟； (iii) 位置感知服务器分配，使 ServerlessLLM 能够评估集群中每个服务器的状态，并有效地安排模型启动时间，以利用本地检查点放置 ...

0 0 0 0 2024/06/26 arXiv:2401.14351v1 remaper

Llumnix: Dynamic Scheduling for Large Language Model Serving

对于大型语言模型（LLM）提供的推理服务是在人们的日常生活中释放其潜力的关键。然而，高效的LLM服务在今天仍然具有挑战性，因为，由于应用程序的免疫和LLM的动态执行性质，请求本质上是七个的，而且在资源和延迟要求方面是不可预测的。现有系统在处理这些特性方面从根本上受到限制，并导致严重的队列延迟、尾部延迟和SLO损失等问题... ...

0 0 1 6 2024/10/23 arXiv:2406.03243v1 remaper

DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving

DistServe通过分层预填充和解码计算来提高大型语言模型（LLM）服务的性能。现有的LLM服务系统将两个阶段并置，并批量计算所有用户和请求的预填充和解码。我们发现这种不仅会导致强烈的预填充干扰，而且还会关联两个阶段的资源分配和任务计划…… ...

0 2 0 0 2024/10/17 arXiv:2401.09670v3 remaper

DéjàVu: KV-cache Streaming for Fast, Fault-tolerant Generative LLM Serving

整个LLM服务激增，并且由于三个关键挑战而经常未充分利用硬件加速器：提示和 Token 处理的双模式延迟导致管道任务配置中的泡沫、GPU内存配置以及发生故障时的故障时间在本文中，我们提出了 DéjàVu，一个使用高效且高效的 KV 存储流库（DéjàVuLib）来解决所有这些挑战的系统。使用 DéjàVuLib，我们提出并实现了提示 Token 分解以减少管道气泡、微批量交换以实现的 GPU 内存管理，以及高效状态复制以实现内容错误 ... ...

0 0 0 0 2025/01/15 arXiv:2403.01876v1 remaper

Petals: Collaborative Inference and Fine-tuning of Large Models

许多 NLP 任务受益于使用通常具有超过 1000 亿个参数的大型语言模型 (LLM)。随着 BLOOM-176B 和 OPT-175B 的发布，每个人都可以下载这种规模的预训练模型。尽管如此，使用这些模型仍然需要许多研究人员无法获得的高端硬件 ...

0 0 0 0 2024/06/03 arXiv:2209.01188v2 remaper

Efficiently Scaling Transformer Inference

我们在最严峻的环境中研究 Transformer 模型的生成高效推理问题：大型延迟模型，具有严格的延迟目标和无数的序列长度。更好地理解基于 Transformer 的大型模型的推理工程权衡非常重要的是，因为这些模型的例子在整个应用领域中快速增长。我们开发了一个简单的推理效率分析模型，根据应用需求选择针对TPU v4切片优化的最佳多维分区技术... ...

0 0 0 0 2024/10/11 arXiv:2211.05102v1 remaper

Benchmarking Benchmark Leakage in Large Language Models

随着预训练数据的使用不断扩大，基准数据集泄漏的现象变得越来越突出，而不透明的训练过程以及当代大型语言模型（LLM）中经常未公开的监督数据的存在加剧了这一现象。这个问题扭曲了基准的有效性，并导致潜在的不公平比较，阻碍了该领域的健康发展。为了解决这个问题，我们引入了一个利用 Perplexity 和 N-gram 准确性的检测管道，这两个简单且可扩展的指标可以衡量模型在基准上的预测精度，以识别潜在的数据泄漏 ...

0 0 0 0 2024/05/27 arXiv:2404.18824v1 remaper