研究组一项工作(CommitMoE)被 AAAI 2026 接收
2025-11-08
11 月 8 日,AAAI 公布了论文入选结果,研究组一篇论文 CommitMoE: Efficient Fallback-Free MoE Inference with Offloading under GPU Memory Constraints 成功入选 AAAI 2026 会议。

Mixture of Experts(MoE)模型通过在每次输入时仅激活部分参数,为大规模语言模型的高效扩展提供了一条可行路径。然而,在 GPU 显存受限的环境中部署此类模型仍面临挑战,因为现有的卸载策略在 CPU 与 GPU 之间的数据传输上会引入显著开销。尽管已有研究尝试通过预取技术缓解这一瓶颈,但当预测失误时,这些方法依赖的回退机制代价高昂。由于专家参数一旦开始传输便无法取消,系统必须按顺序按需加载正确的专家,从而引入额外的延迟。
为解决这一问题,我们提出了 CommitMoE,一种利用 Commit Router 在无需回退机制的情况下基于专家预测直接做出执行决策的新方法。我们的关键洞察在于:路由确定性与预测准确率强相关;而在低确定性场景下,模型输出对专家选择本身表现出内在的鲁棒性。基于这一观察并据此构建系统级设计,CommitMoE 在保持模型质量的同时,在不同环境和数据集上相较于最先进的卸载框架实现了 1.3× 至 9.4× 的推理加速。
该工作是由研究组在读硕士生李晗、在读博士生林俊卿及导师孙广中、孙经纬共同完成,豆包大模型基金对本工作提供了支持。