研究组一项工作(Lua-LLM)被 NeurIPS 2025 接受
2025-09-19
9 月 19 日,NeurIPS 公布了论文入选结果,研究组一篇论文 Lua-LLM: Learning Unstructured-Sparsity Allocation for Large Language Models 成功入选 NeurIPS 2025 会议。

论文简介:
大规模语言模型(LLMs)展现出了非凡的能力,但其庞大的参数规模在实际部署中带来了重大挑战。非结构化剪枝作为一种有效的模型压缩策略,能够在性能几乎无损的情况下引入权重参数的细粒度稀疏性。现有方法通常采用逐层(layer-wise)的剪枝策略,以避免在拥有数十亿参数的 LLM 上进行全局剪枝的复杂性;然而,这类方法需要对逐层剪枝目标进行合适的稀疏度分配,并且往往导致整体模型的次优解。
本文提出 Lua-LLM(Learning Unstructured-sparsity Allocation in LLMs),这是一种基于学习的全局剪枝框架,能够探索最优的非结构化稀疏分配方式。与现有主要关注逐层稀疏度分配的剪枝方法不同,Lua-LLM 可以同时灵活地进行层间(layer-wise)和层内(intra-layer)的稀疏分配。此外,Lua-LLM 引入了一种 软 Top-K 算子 来近似基于重要性的掩码选择机制,从而实现高效的二值掩码学习。在 LLaMA 和 OPT 系列模型上的实验结果表明,Lua-LLM 在性能上显著优于现有方法。与最新的稀疏度分配方法 ATP 相比,Lua-LLM 在 80% 稀疏度下将 LLaMA2-7B 模型的困惑度(perplexity)从 425.12 降低至 30.27;在 70% 稀疏度下,还使 LLaMA3-8B 模型的平均零样本准确率提升了 3.87%。
该工作是由研究组在读硕士生卢铭阁、在读博士生林俊卿、周泽淳及导师孙广中、孙经纬共同完成。