- 名称
- Shift Parallelism: Low-Latency, High-Throughput LLM Inference for Dynamic Workloads
- 描述
高效的并行性对于通过大型语言模型 (LLM) 实现低延迟、高吞吐量推理是必要的。张量并行 (TP) 是减少 LLM 响应延迟的最先进方法,但 GPU 通信会降低组合 Token 吞吐量。另一方面,数据并行(DP)获得更高的吞吐量,但响应延迟较慢 ...
高效的并行性对于通过大型语言模型 (LLM) 实现低延迟、高吞吐量推理是必要的。张量并行 (TP) 是减少 LLM 响应延迟的最先进方法,但 GPU 通信会降低组合 Token 吞吐量。另一方面,数据并行(DP)获得更高的吞吐量,但响应延迟较慢 ...