研究组一项工作(Weaver)被 DAC 2026 接收

2026-03-02

  2月23日,DAC公布了论文入选结果,研究组一篇论文 Weaver: Stratified Expert Scheduling for Memory-Constrained MoE Inference 成功入选DAC 2026会议。

  混合专家模型(Mixture-of-Experts,MoE)通过稀疏专家激活机制取得了卓越的性能。然而,在资源受限平台上的部署面临严峻的内存挑战:其参数规模往往超过设备容量,因此须进行 CPU 卸载。尽管现有系统已优化数据传输,并在 MoE 层执行期间利用 CPU 计算资源,但在 GPU 执行注意力计算阶段,CPU 仍然处于未充分利用状态。

  作者提出了 Weaver,一种分层调度框架,通过基于得分的专家分层处理机制来利用这一空闲时间窗口。研究的核心洞察在于专家重要性的非对称性:低得分专家可以容忍输入近似,而高得分专家对精度至关重要。Weaver 在注意力计算阶段,利用前一层输入,主动在 CPU 上执行预测为低得分的专家;同时对高得分专家启动分层预取机制,并在后续阶段通过跨异构资源的反应式调度平衡剩余工作负载。在三种具有代表性的 MoE 模型上的实验结果表明,Weaver 在保持模型质量的前提下,相较于当前最先进的精度保持型卸载系统,实现了平均 1.47–3.58 倍的加速比。

  该工作是由研究组在读硕士生李晗、在读博士生林俊卿及导师孙广中、孙经纬共同完成。豆包大模型基金对本工作提供了支持。