研究组一项工作（Weaver）被 DAC 2026 接收

2026-03-02

2月23日，DAC公布了论文入选结果，研究组一篇论文 Weaver: Stratified Expert Scheduling for Memory-Constrained MoE Inference 成功入选DAC 2026会议。

混合专家模型（Mixture-of-Experts，MoE）通过稀疏专家激活机制取得了卓越的性能。然而，在资源受限平台上的部署面临严峻的内存挑战：其参数规模往往超过设备容量，因此须进行 CPU 卸载。尽管现有系统已优化数据传输，并在 MoE 层执行期间利用 CPU 计算资源，但在 GPU 执行注意力计算阶段，CPU 仍然处于未充分利用状态。

作者提出了 Weaver，一种分层调度框架，通过基于得分的专家分层处理机制来利用这一空闲时间窗口。研究的核心洞察在于专家重要性的非对称性：低得分专家可以容忍输入近似，而高得分专家对精度至关重要。Weaver 在注意力计算阶段，利用前一层输入，主动在 CPU 上执行预测为低得分的专家；同时对高得分专家启动分层预取机制，并在后续阶段通过跨异构资源的反应式调度平衡剩余工作负载。在三种具有代表性的 MoE 模型上的实验结果表明，Weaver 在保持模型质量的前提下，相较于当前最先进的精度保持型卸载系统，实现了平均 1.47–3.58 倍的加速比。

该工作是由研究组在读硕士生李晗、在读博士生林俊卿及导师孙广中、孙经纬共同完成。豆包大模型基金对本工作提供了支持。

算法与数据应用研究组

研究组一项工作（Weaver）被 DAC 2026 接收

2026-03-02

相关链接

联系我们