研究组一项工作(HOPO)被 ICS 2026 接收
2026-03-16
2月24日,ICS(International Conference on Supercomputing)公布了 2026 年论文入选结果。本研究组关于多模态模型推理优化的论文 HOPO: Accelerating Multimodal Neural Networks Inference via Holistic Parallelism Optimization 成功入选。

多模态神经网络在现代智能系统中发挥着至关重要的作用。这类模型通常具有复杂的多分支拓扑结构,为推理过程中的算子间并行提供了巨大机会。然而,主流的机器学习编译器通常优先将算子内并行作为主要优化目标。这种传统方法虽对链式结构模型有效,却抑制了多模态模型固有的算子间并行性,成为制约推理效率的性能瓶颈。
通过系统性分析,研究团队揭示了导致多模态模型推理效率低下的两个根本原因:其一,在图调度阶段,系统面临着难以平衡同步开销、资源竞争与GPU利用率的困境;其二,在编译阶段,贪婪地最大化单个算子内并行性与并发算子引起的严重资源竞争之间存在着内在的结构性冲突。
针对上述挑战,研究团队提出了一种全新的编译器框架HOPO,旨在通过整体并行优化来加速多模态神经网络的推理。HOPO创新性地整合了两个关键机制:(1)拓扑感知的图调度器:能够动态识别最佳的调度粒度和算子组合,从而有效平衡GPU利用率、资源竞争和同步成本。(2)整体并行自动调优器:摒弃了传统的贪婪式单算子优化,转而在并发执行的算子组之间进行内核的协同优化,从全局视角释放整体并行的潜力。
该工作由本研究组在读博士生郑宇杰、在读硕士生李晗,以及导师孙广中、孙经纬、李京共同完成。