tea5的文档

Strata: Hierarchical Context Caching for Long Context Language Model Serving

具有扩展上下文Windows的大型语言模型（LLM）面临着重大的性能障碍。尽管缓存键值（KV）状态对于避免冗余计算至关重要，但长篇小说caches的存储足迹迅速超过了GPU内存容量，迫使生产系统在跨内存层次结构中采用层次缓存。但是，将大型缓存的上下文转移回GPU会引入严重的性能瓶颈：从分类布局中碎片的I/O防止了完整的带宽利用率，并且现有调度程序未能考虑缓存延迟的延迟，从而使系统加载限制，而不是计算约束 ...

0 0 0 0 2025/09/17 arXiv:2508.18572v1 tea5

System-performance and cost modeling of Large Language Model training and inference

基于 Transformer 架构的大型语言模型（LLMS）由于其出色的可伸缩性和适应性而彻底改变了人工智能，科学和工程中的许多领域。但是，LLM大小和复杂性的指数增长超过了计算能力，内存带宽，网络性能和成本效率的进步，对它们在分布式系统上的可伸缩性提出了重大挑战。为了解决这些局限性，在文献中提出了替代模型体系结构，优化策略，通信感知网络拓扑和新颖的系统设计方法 ...

0 0 0 0 2025/09/05 arXiv:2507.02456v1 tea5

Cluster Topology-Driven Placement of Experts Reduces Network Traffic in MoE Inference

有效地将预训练的LLM部署到具有多个服务器的群集中，是对用户查询提供快速响应的关键步骤。 Experts（MOE）LLMS的最新成功提出了一个问题，即如何有效部署它们，考虑其基础结构。在推断MOE LLMS期间，只选择一小部分专家来处理给定的 Token ...

0 0 0 0 2025/09/04 arXiv:2508.09229v1 tea5

PiKV: KV Cache Management System for Mixture of Experts

随着大型语言模型的规模和上下文长度继续扩展，键值（KV）缓存存储的内存和通信成本已成为多GPU和多节点推断中的主要瓶颈。虽然基于MOE的体系结构跨专家稀疏计算，但相应的KV缓存仍保持密集且全球同步，从而产生了明显的开销。我们介绍了\ textbf {pikv}，这是一种针对MOE架构量身定制的并行且分布式的KV缓存服务框架 ...

0 0 0 0 2025/08/30 arXiv:2508.06526v1 tea5

Toward Cost-Efficient Serving of Mixture-of-Experts with Asynchrony

Experts（MOE）架构的混合物提供了更大的模型容量的承诺，而没有完全致密的设计成本。但是，在现实推论中，专家之间的负载偏斜通常会导致次优的设备利用和过度的同步开销。本文介绍了异步专家并行性（AEP），这是一种新的范式，将层执行与屏障式同步相关 ...

0 0 0 0 2025/08/26 arXiv:2505.08944v2 tea5

Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation

基于Transformer的大型语言模型（LLM）在生成任务中表现出令人印象深刻的性能，但由于昂贵的计算优化加速器的使用效率低下，给现实世界的服务带来了巨大的挑战。这不匹配由LLM的自回归性质引起的，其中生成阶段包括具有不同资源需求的关系。具体来说，注意力算子是内存密集型的，表现出与现代加速器的优势相冲突的内存访问模式，特别是是当上下文长度增加时... ...

0 0 0 0 2025/08/24 arXiv:2405.01814v2 tea5

Efficiently Serving Large Multimodal Models Using EPD Disaggregation

大型多模态模型 (LMM) 通过处理图像、音频和视频等不同输入来扩展大型语言模型 (LLM)，但代价是添加多模态编码阶段，从而增加计算和内存开销。此步骤有助于将原始输入转换为标记化表示，从而增加预填充阶段的标记序列，从而对关键服务级别目标 (SLO)（例如首次标记时间 (TTFT) 和端到端吞吐量）产生负面影响。我们引入了编码-预填充-解码 (EPD) 分解，这是一种新颖的框架，它将编码、预填充和解码阶段分离到专用资源上 ...

0 0 0 0 2025/08/21 arXiv:2501.05460v4 tea5

DeepServe: Serverless Large Language Model Serving at Scale

本文介绍了DeepFlow，这是一个可扩展的无服务器AI平台，旨在在云环境中在大规模上有效地提供大型语言模型（LLM）。 DeepFlow通过四个主要设计组件解决了主要挑战，例如资源分配，服务效率和冷启动潜伏期。首先，它使用一个名为“请求 - 任务”模型的简单无服务器抽象，该抽象有助于管理跨培训和模型服务任务的AI工作负载 ...

0 0 0 0 2025/08/11 arXiv:2501.14417v3 tea5

xDeepServe: Model-as-a-Service on Huawei CloudMatrix384

扩展的LLM和扩大超级点的兴起在大规模AI基础架构中标志着一个新时代。如DeepSeek，Kimi和Qwen等最新模型中所示，LLMS继续通过MOE扩展。同时，AI硬件正在扩大扩展，华为的CloudMatrix384 SuperPod提供了数百个GB/S高速互连 ...

0 0 0 0 2025/08/11 arXiv:2508.02520v4 tea5

TokenWeave: Efficient Compute-Communication Overlap for Distributed LLM Inference

大型语言模型（LLMS）的分布式推断甚至可以通过高速互连（例如NVLINK）引入高达20％的开销。已经提出了多种技术来通过将计算分解为更细粒度的任务并在完成后与子任务进行重叠的通信来减轻这些间接费用。但是，大型计算将细粒度分解为GPU上许多较小的计算会导致开销 ...

0 0 0 0 2025/07/20 arXiv:2505.11329v2 tea5