首页   

4500美元复刻DeepSeek神话,1.5B战胜o1-preview只用RL!训练细节全公开

机器学习研究组订阅  · AI  · 昨天

主要观点总结

UC伯克利研究团队通过结合强化学习和知识蒸馏技术,成功将小型模型DeepScaleR-1.5B-Preview的推理能力大幅提升,超越了一些大型模型的性能。该模型在AIME 2024基准测试中,Pass@1准确率高达43.1%,相较于基础模型提升了14.3%。研究团队通过逐步扩展模型的上下文长度,优化了模型的推理能力,提高了强化学习的效率。该研究展示了强化学习在小型模型上的显著作用,打破了强化学习只对大型模型有效的传统观念。

关键观点总结

关键观点1: 研究团队成功将小型模型DeepScaleR-1.5B-Preview的推理能力大幅提升,超越了一些大型模型的性能。

研究团队结合强化学习和知识蒸馏技术,将小型模型DeepScaleR的推理能力大幅提升。该模型在多个竞赛级别的数学基准测试中表现优异,超越了其他大型模型和一些最新研究成果。

关键观点2: 模型在AIME 2024基准测试中表现突出。

DeepScaleR-1.5B-Preview在AIME 2024基准测试中,Pass@1准确率高达43.1%,相较于基础模型提升了14.3%。这表明该模型在数学推理任务上具有出色的性能。

关键观点3: 研究团队通过逐步扩展模型的上下文长度,优化了模型的推理能力。

研究团队采用了一种逐步扩展模型上下文长度的方法,先在较短的上下文长度内优化模型的推理能力,然后逐步扩展到更长的上下文长度。这种方法提高了强化学习的效率,使模型能够在扩展到更长的上下文之前建立稳定的推理模式。

关键观点4: 该研究展示了强化学习在小型模型上的显著作用。

该研究打破了强化学习只对大型模型有效的传统观念,证明了强化学习在小型模型上也能发挥显著作用。这一发现对于降低模型训练的成本和提高模型效率具有重要意义。


正文

强化学习迎来重大突破!

近日,来自UC伯克利的研究团队基于Deepseek-R1-Distilled-Qwen-1.5B,通过简单的强化学习(RL)微调,得到了全新的DeepScaleR-1.5B-Preview。

在AIME2024基准中,模型的Pass@1准确率达高达43.1% ——不仅比基础模型提高了14.3%,而且在只有1.5B参数的情况下超越了OpenAI o1-preview!

目前,研究团队已开源数据集、代码和训练日志。

图片

只用不到5000美元的预算,团队就复现了DeepSeek的成功。至此,开源又赢下一局。

网友们称赞:当机器学习和数学相遇,就是超强组合的诞生!

图片

图片

训练秘籍简版:先短后长

1.5B模型,通过RL训练,就能超越o1-preview,进行数学推理?

简而言之,团队这次的训练策略就是四个字——先短后长

图片

第一步,研究人员会训练模来型进行短思考。他们使用DeepSeek的GRPO方法,设定了8k的上下文长度来训练模型,以鼓励高效思考。

经过1000步训练后,模型的token使用量减少了3倍,并比基础模型提升了5%。

接下来,模型被训练进行长思考。强化学习训练扩展到16K和24K token,以解决更具挑战性、以前未解决的问题。

随着响应长度增加,平均奖励也随之提高,24K的魔力,就让模型最终超越了o1-preview!

DeepScaleR-1.5B-Preview

最近,Deepseek-R1开源发布,对推理模型技术普及来说,是个重要突破。不过,它具体的训练方法、超参数还有底层系统,都还没公开。

在扩展强化学习的时候,最大的难题之一就是计算成本太高。

就拿DeepSeek-R1的实验来说,要想完全复现,上下文长度得达到32K以上,训练大概8000步,就算是只有1.5B参数的模型,起码都得花70,000 GPU小时。

如何利用强化学习,把小型模型变成超厉害的推理模型呢?

为了解决这个问题,研究人员用了知识蒸馏模型,还创新性地引入了强化学习迭代延长方法。

团队推出了DeepScaleR-1.5B-Preview模型,它经过4万个高质量数学问题的训练,训练一共用了3800个A100 GPU小时。

最终,成本只需约4500美元,省了18.42倍!同时模型的性能还在几个竞赛级数学基准中,超过了o1-preview。

研究表明,用强化学习开发定制化的推理模型,既能大规模进行,还能控制成本,性价比超高!

图片

AIME 2024测试集Pass@1准确率随训练进度而变:训练至第1040步,上下文长度扩至16K token;到第1520步,上下文长度增至24K token

技术方案

数据集构建

在训练数据集方面,研究人员收集了1984至2023年的美国国际数学邀请赛(AIME)、2023年之前的美国数学竞赛(AMC),以及来自Omni-MATH和Still数据集的各国及国际数学竞赛题目。

数据处理流程包含三个核心步骤:

  1. 答案提取:对于AMC和AIME等数据集,使用gemini-1.5-pro-002模型从AoPS官方解答中提取答案。
  2. 重复问题清理:基于RAG,并结合sentence-transformers/all-MiniLM-L6-v2的词向量嵌入来消除重复问题。同时,对训练集和测试集进行重叠检测,以防止数据污染。
  3. 不可评分题目过滤:数据集(如Omni-MATH)中的部分问题,无法通过sympy数学符号计算库评估(得靠LLM判断)。这不仅会降低训练速度,还会引入不稳定的奖励信号,因此需要增加额外的过滤步骤,来剔除无法自动评分的问题。

在经过去重和过滤之后,就得到了约4万个独特的问题-答案对作为训练数据集。

奖励函数设计

按Deepseek-R1的经验,用结果奖励模型(ORM)而不是过程奖励模型(PRM),来避免模型通过投机取巧得到奖励。

奖励函数返回值如下:

  • 返回「1」:如果LLM的答案,既能通过LaTeX语法检查,又能通过Sympy数学验证,就给它奖励。
  • 返回「0」:要是LLM的答案是错的,或者格式不对,比如少了标记,那就不给奖励。

迭代增加上下文长度:从短到长的思维扩展

推理任务由于会生成比标准任务更长的输出,计算开销较大,这会同时降低轨迹采样(Trajectory Sampling)和策略梯度(Policy Gradient)更新的速度。

与此同时,上下文窗口大小翻倍,则会导致训练计算量至少增加2倍。

这种情况产生了一个根本性的权衡取舍:较长的上下文能为模型提供更充足的思维空间,但会显著降低训练速度;而较短的上下文虽然可以加快训练进度,但可能会限制模型解决那些需要长上下文的复杂问题的能力。

因此,在计算效率和准确性之间找到最佳平衡点至关重要。

基于Deepseek的广义近端策略优化(GRPO)算法的训练方案包含两个主要步骤:

  • 首先,使用8K token的最大上下文长度进行强化学习训练,从而实现更有效的推理能力和训练效率。
  • 随后,将上下文长度扩展到16K和24K token,使模型能够解决更具挑战性的、此前未能攻克的问题

用8K上下文构建高效思维链推理

正式训练之前,先用AIME2024测试集对Deepseek-R1-Distilled-Qwen-1.5B模型进行评估,并分析它的推理轨迹数据。结果发现,错误答案里平均包含的token数量,是正确答案的三倍。这说明回答越长,越容易出错。

因此,直接采用长上下文窗口进行训练效率可能不高,因为大部分token都没有被有效利用。此外,冗长的回答还会表现出重复性模式,这表明它们并未对对思维链推理(CoT)产生实质性的贡献。

基于这些发现,团队决定先从8K token的上下文长度开始训练。在AIME2024测试里,获得了22.9%的初始准确率,只比原始模型低6%。

事实证明这个策略很有效:训练的时候,平均训练奖励从46%提高到了58%,平均响应长度从5500 token减少到了3500 token。

图片

把输出限制在8K token以内,模型能更高效地利用上下文空间。如下表所示,不管是生成正确答案还是错误答案,token数量都大幅减少了。

在AIME准确率上,比原始基准模型还高了5%,用的token数量却只有原来的1/3左右。

图片

扩展至16K token上下文,关键转折点出现

在大约1000步后,8K token运行中发生了一个有趣的变化:响应长度再次开始增加。然而,这却没有增加收益——输出准确率达到了平台期,并最终开始下降。

图片

与此同时,响应截断比例从4.2%上升到了6.5%,这表明更多的响应在上下文长度的限制下被截断。

图片

这些结果表明,模型试图通过「延长思考时间」来提高训练奖励。然而,随着更长的输出,模型越来越频繁地触及到8K token上下文窗口的上限,从而限制了性能的进一步提升。

研究人员意识到这是一个自然的过渡点,于是决定「放开笼子,让鸟儿飞翔」。

他们选择了在第1040步的检查点——即响应长度开始上升的地方——重新启动训练,并使用了16K上下文窗口。

这种两阶段的做法比从一开始就用16K token训练效率高得多:8K的预热阶段让平均响应长度保持在3K token而不是9K,这使得此阶段的训练速度至少提高了2倍。

在扩展上了下文窗口后,研究人员观察到训练奖励、输出长度和AIME准确率都呈现稳定提升趋势。经过额外的500步训练,平均输出长度从3.5K增加至5.5K token,AIME2024的Pass@1准确率达到了38%。

24K魔法,超越o1-preview

在16K token上下文环境下额外训练500步后,研究人员发现模型性能开始趋于平稳——平均训练奖励收敛在62.5%,AIME单次通过准确率徘徊在38%左右,输出长度再次呈现下降趋势。同时,最大输出截断比率逐渐升至2%。

为了最终推动模型性能达到o1级别,研究人员决定决定推出「24K魔法」——将上下文窗口扩大到24K token。

首先,将16K训练时的检查点设定在第480步,并重新启动了一个24K上下文窗口的训练。

随着上下文窗口的扩展,模型终于突破了瓶颈。在大约50步后,模型的AIME准确率首次超过了40%,并在第200步时达到了43%。24K的魔力发挥得淋漓尽致!

总体来看,训练历时约1750步。最初的8K阶段使用了8块A100 GPU进行训练,而16K和24K阶段则扩展到32块A100 GPU进行训练。

整个训练过程共耗时约3800个A100小时,相当于32块A100 GPU上运行了大约5天,计算成本约为4500美元。

研究人员用多个竞赛级别的数学评测基准来测试模型,像AIME 2024、AMC 2023、MATH-500、Minerva Math还有OlympiadBench。

这里报告的是Pass@1准确率,简单说,就是模型第一次就答对的概率。每个问题的结果,都是16次测试取平均值得到的。

图片

将DeepScaleR和DeepSeek模型,以及近期专注推理任务强化学习的成果对比。DeepScaleR在所有评测里,都比基础模型强很多。

在AIME 2024测试中,成绩更是大幅提升了14.4%,整体性能也提高了8.1%。

DeepScaleR比最新模型的表现还好,像从7B参数模型微调来的rSTAR、Prime和SimpleRL。DeepScaleR只用1.5B参数,就达到了o1-preview的性能水平——这是模型效率的重大突破!

图片

AIME准确率与模型规模对比,DeepScaleR实现性能与规模最佳平衡(帕累托最优)。

关键发现

很多人认为强化学习只对大型模型有用,其实强化学习在小型模型上也能发挥显著作用。

Deepseek-R1发现,直接在小型模型上用强化学习,效果不如知识蒸馏。在Qwen-32B模型上做对比实验,强化学习只能让AIME测试的准确率达到47%,但只用知识蒸馏就能达到72.6%。

不过,要是从更大的模型中,通过蒸馏得到高质量的SFT数据,再用强化学习,小模型的推理能力也能大幅提升。

研究证明了这一点:通过强化学习,小型模型在AIME测试中的准确率从28.9%提高到了43.1%。

不管是只用监督微调,还是只用强化学习,都没办法让模型达到最佳效果。只有把高质量的监督微调蒸馏和强化学习结合起来,才能真正发挥LLM的推理潜力。

之前的研究发现,强化学习直接在16K token的上下文环境里训练,和8K token比起来,效果并没有明显提升。这很可能是因为计算资源不够,模型没办法充分利用扩大后的上下文。

最近的研究也指出,模型回复太长,里面就会有很多冗余的推理内容,这些内容容易导致错误结果。本文的实验证实了这些发现。

团队先在较短的8K token上下文里,优化模型的推理能力,这样一来,后续在16K和24K token的环境里训练时,就能取得更快、更明显的进步。

这种一步一步增加长度的方法,能让模型在扩展到更长的上下文之前,先建立起稳定的推理模式,从而提高强化学习扩展上下文长度的效率 。

核心贡献者

项目主页还展示了参与DeepScaleR设计的所有研究人员,其中有两位核心贡献者。

图片

Michael Luo

图片

Michael Luo目前是UC伯克利电气工程与计算机科学系(EECS)的博士生,导师是Ion Stoica教授。

在此之前,他获得了UC伯克利电气工程与计算机科学硕士和工商管理双学士学位。

他的研究兴趣主要在人工智能和系统领域。目前,其研究主要是为机器学习从业者构建可扩展的系统,以实现Sky Computing的愿景。

Sijun Tan(谭嗣俊)

图片

谭嗣俊目前是UC伯克利计算机科学专业的三年级博士生,导师是Raluca Ada Popa。

此前,他在弗吉尼亚大学获得计算机科学和数学双学士学位,导师是David Wu和Yuan Tian。

他曾在Facebook AI Research(FAIR)实习过一段时间,并在蚂蚁集团担任过高级算法工程师。

他的研究领域涵盖机器学习、计算机安全和应用密码学。目前,其研究重点是增强通用型AI智能体的能力和鲁棒性。

参考资料:HNYZs
https://pretty-radio-b75.notion.site/DeepScaleR-Surpassing-O1-Preview-with-a-1-5B-Model-by-Scaling-RL-19681902c1468005bed8ca303013a4e2


想要了解更多资讯,请扫描下方二维码,关注机器学习研究会

                                          

图片


转自:新智元

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com