- 名称
- PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference
- 描述
专家(MOE)的混合物(MOE)型号在商品硬件上部署时会面对内存和PCIE潜伏期瓶颈。将专家权重到CPU内存会导致PCIE传输延迟超过GPU计算几倍。我们提出了Prepcope,这是一个以预测为驱动的专家调度系统,该系统应对三个关键挑战:不准确的激活预测,PCIE带宽竞争和跨设备调度计划的复杂性 ...
专家(MOE)的混合物(MOE)型号在商品硬件上部署时会面对内存和PCIE潜伏期瓶颈。将专家权重到CPU内存会导致PCIE传输延迟超过GPU计算几倍。我们提出了Prepcope,这是一个以预测为驱动的专家调度系统,该系统应对三个关键挑战:不准确的激活预测,PCIE带宽竞争和跨设备调度计划的复杂性 ...