研究组一项工作(ILOS)被 IPDPS 2026 接收
2025-12-24
12 月 23 日,IPDPS 公布了论文入选结果,研究组一篇论文 Enhancing HPC Batch Job Scheduling via Imitation Learning-Based Search 成功入选 IPDPS 2026 会议。

批处理作业调度优化对于提升 HPC 集群的整体性能至关重要。现有调度器主要包括基于启发式的方法和基于强化学习的方法,但启发式方法对多样化工作负载的适应性不足,而强化学习方法则面临收敛不稳定的问题。
针对这些挑战,我们提出了一种基于模仿学习的批处理作业调度器,ILOS,旨在融合基于学习方法的高效性优势与基于优化求解的高解质量优势。ILOS在离线阶段基于优化求解器标注的轨迹进行模仿学习,在在线阶段以轻量级的推理生成高质量的调度决策。基于真实集群轨迹的实验表明,ILOS 在性能上持续优于当前主流的启发式和强化学习调度器,并通过将高计算开销隔离在离线的标注与训练阶段保证了可用性。
该工作是由研究组在读博士生周泽淳、在读本科生叶明非及导师孙广中、孙经纬共同完成。