arxiv PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference

名称
PreScope: Unleashing the Power of Prefetching for Resource-Constrained MoE Inference
首页
https://yiyibooks.cn/arxiv/2509.23638v1/index.html
原始地址
https://arxiv.org/pdf/2509.23638
描述
专家(MOE)的混合物(MOE)型号在商品硬件上部署时会面对内存和PCIE潜伏期瓶颈。将专家权重到CPU内存会导致PCIE传输延迟超过GPU计算几倍。我们提出了Prepcope,这是一个以预测为驱动的专家调度系统,该系统应对三个关键挑战:不准确的激活预测,PCIE带宽竞争和跨设备调度计划的复杂性 ...