arxiv Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads

名称
Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads
首页
https://yiyibooks.cn/arxiv/2509.16495v1/index.html
原始地址
https://arxiv.org/abs/2509.16495
描述
高效的并行性对于通过大型语言模型 (LLM) 实现低延迟、高吞吐量推理是必要的。张量并行 (TP) 是减少 LLM 响应延迟的最先进方法,但 GPU 通信会降低组合 Token 吞吐量。另一方面,数据并行(DP)获得更高的吞吐量,但响应延迟较慢 ...