基本信息 - Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

arxiv Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

Star 0

阅读

名称: Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

首页: https://yiyibooks.cn/arxiv/2509.16495v1/index.html

原始地址: https://arxiv.org/abs/2509.16495

描述

高效的并行性对于通过大型语言模型 (LLM) 实现低延迟、高吞吐量推理是必要的。张量并行 (TP) 是减少 LLM 响应延迟的最先进方法，但 GPU 通信会降低组合 Token 吞吐量。另一方面，数据并行（DP）获得更高的吞吐量，但响应延迟较慢 ...

文件上传进度

0%

上传成功 0 个文件