本文提出了 ZClip 自适应梯度裁剪算法,通过 z-分数异常检测和 EMA 动态调整裁剪阈值,有效解决了 LLM 预训练中的损失尖峰和梯度不稳定性问题,显著提升了训练的稳定性、收敛速度和效率,为大规模 LLM 的稳定训练提供了一种实用有效的方法。 [LG]《ZClip: Adaptive Spike Mitigation for LLM Pre-Training》A Kumar, L Owen, N R Chowdhury, F Güra [BluOrion] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#