本文反直觉地揭示了推理模型冗长回复并非性能提升的必要条件,并通过数学分析和两阶段RL训练策略,在极小数据集上实现了推理模型回复长度的显著缩减和效率提升,同时保持甚至提高了准确率,为高效、简洁的推理模型训练提供了新思路。 [CL]《Concise Reasoning via Reinforcement Learning》M Fatemi, B Rafiee, M Tang, K Talamadupula [Wand AI] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#