本文主要介绍了幻方量化发布的DeepSeek-V3模型的特点和其对市场、应用、算力需求等方面的影响。DeepSeek-V3模型利用MoE、fp8混合精度等技术,降低了训练大模型的成本,引发了资本市场的热议。该模型的创新技术对其他模型团队有借鉴意义,但也需要考虑模型性能和宏观维度的大厂资本开支趋势。同时,文章还提到了上海市政府的人工智能'模塑申城'实施方案,以及服务器和IDC投资的相关情况。
DeepSeek-V3模型使用MoE和fp8混合精度等技术,降低了训练成本,具有性能强、成本低、引领创新等优点。
DeepSeek-V3模型的发布在行业内形成鲶鱼效应,促进了国内大模型格局的变化,推动了行业的发展。
虽然DeepSeek-V3模型降低了训练成本,但算力的投入依然会继续增加。预训练的算力需求也无需过度悲观,技术的演进也是周期交替的。
上海市政府计划到2025年底建成世界级人工智能产业生态,推动重点领域垂直应用。初步测算,服务器及IDC投资约为180亿元。
本周市场热点继续聚焦在字节、小米等国内玩家的边际进展,但最值得关注的事件,应该是幻方量化发布了DeepSeek-V3模型。该模型一经发布就在国内外迅速出圈,并引发了资本市场的热烈讨论,它的特点是利用MoE、fp8混合精度等技术,让训练一个类似于GPT4o的大模型所需消耗的算力成本下降为十分左右,相应的后续推理模型成本也将大幅下降,有利于大模型应用的大范围普及。
直观上看,是会减少训练侧的算力需求,这应该一分为二来看:
(1)一线大模型的持续升级,还将需要指数级增加的算力投入,最终才有可能通向AGI,海外OPENAI、XAI等厂商的投入力度不会变;
(2)二线大模型追赶一线模型的训练成本将大幅下降,本质是后发优势,在前人已做好的成熟架构里做优化,是国产厂商的福音(后续字节、小米有望以更低成本推进自己的大模型成熟),这个层面,主要是国产的训练算力需求,是有可能减少的,但本来也缺卡,有巨大的差距,国产算力的瓶颈依然在供给而不是需求,所以明年国产算力的景气度不受影响。
DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。需要注意的是:2048块H800并非全部训练算力投入。
1) 不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。
2) 不包括模型架构的探索调试阶段消耗的算力。
1、DeepSeek-V3厉害在哪里?
1)性能极强:作为一个总参数量671B但激活参数仅37B的MoE模型,DeeSeek-V3在主流基准分数全面超越Llama 3.1 405B,与Claude-Sonnet-3.5-1022近乎打平,实测在Sonnet-3.5和GPT-4o之间,是当之无愧的国产最强开源模型;
2)成本极低:训练DeeSeek-V3仅需2048张H800训练56天(2.788M GPU hours),算力成本仅4000万人民币,是Llama 3.1训练成本的1/11。DeeSeek-V3的推理成本也持续超预期,输入/输出每百万Tokens仅2元/8元,仅为Sonnet-3.5的1/10,这里甚至还没有考虑开启Context Caching这个外挂;
3)引领创新:DeepSeek打破了对国产模型团队的刻板印象,他们在V2提出的多头隐式注意力(MLA)就已得到了业内的高度赞许,还包括今年初提出的DeepSeekMoE架构,再到本次V3首次验证了大规模FP8混合精度训练的可行性,并创新性地应用了无辅助损失的负载均衡策略、多令牌预测(MTP)的训练目标等等。我们应该很自豪国内有这么一个有技术理想有人才实力有算力储备的大模型团队
(感兴趣的可以回看今年5月的DeepSeek-V2解析)
2、为什么训练/推理成本这么低?
1)V3主要涉及的降本技术方案有①MLA机制(降低KV Cache大小)、②DeepSeekMoE架构(降低Flops/参数开销)、③FP8混合精度训练(降低Flops和显存占用)、④蒸馏DeepSeek-R1推理能力(降低后训练RL成本)、⑤MTP模块(提升解码速度)、⑥P/D分离推理(最大化系统计算效率);
2)相较5月发布的V2,MoE的细粒度进一步提升,得益于负载均衡策略和系统层面的大量计算&通信优化;FP8精度的使用是本次V3的重大创新,在此之前FP8数值溢出风险大,叠加MoE训练本身又很不稳定,业内一直没有大规模训练的成功实践;类o1的CoT推理能力直接通过11月发布的R1模型进行蒸馏而得,这解释了为什么后训练只有5k GPU hours算力消耗,不幸的是DeepSeek至今还未公布R1的训练细节;MTP不仅可以在训练时提供更多监督信息,还可以在推理时结合投机采样加速模型解码;推理部署V3在Prefill和Decode阶段采用了完全不同的并行策略,特别是在Decode阶段使用了320张GPU做了专家并行,有效降低解码时延,并缓解负载不均衡的问题
3、对算力是利空吗?
1)无论是DeepSeek-V3还是上周发布的OpenAI o3,它们都指向了同一个发展趋势:尽管预训练的“大力出奇迹”现阶段有些撞墙,但模型能力的提升依然在其他维度发生,无论是继续去挖掘Transformer架构的潜力,还是去卷后训练的强化学习,亦或是怼推理时计算。算力的投入依然会继续增加,只不过阶段性投入的重心从一年前的预训练,转移到了目前的后训练和推理;
2)对预训练的算力需求也无需过度悲观。算力通缩(单位token成本下降)在这个行业每天其实都在发生,但我们依然看到算力需求的持续增长。并且,任何技术的演进也都是周期交替的,假如明年初x.AI用10万卡集群训练出的Grok 3表现惊艳,届时业内又可能重拾对超大规模预训练的热情
4、对应用的意义有多大?
1)事实上今年5月DeepSeek-V2的发布就是国产大模型格局剧变的导火索。当时在V2发布几天后,火山引擎则宣布大幅降价,也正是那次价格战奠定了豆包在目前国内市场的格局。同理,我相信本次V3发布后,依然会在行业内形成类似的鲶鱼效应。况且DeepSeek团队在53页的技术报告里已经手把手地去教大家怎么做了;
2)未来随着国产大模型在能力再上一台阶,成本再下一台阶后,应用势必以更快的速率在各行各业落地。我个人最看好的依然是端侧的各式智能硬件(AIoT),这是符合国内市场消费习惯、中国供应链能充分受益、且更加从零到一的方向。从事件催化的角度,我们有望看到OpenAI的GUI Agent “Operator”在25年1月发布。同时在1月7日开幕的CES消费电子展上,我们也可能看到一些意想不到的端侧智能硬件。
5、算力需求真的会减少吗?
1)DeepSeek V3创新技术可借鉴,但需考虑模型性能。
- 训练算力投入和模型性能之间,需要权衡。DeepSeek V3暂无多模态生成能力。
- “算法优化—成本下降—渗透率提升—强化训推投入”正向反馈持续。
通俗的说就是,算法优化后,相同的训练算力投入,能进行更多模型开发尝试,加速模型能力的提升,带动应用爆发,推理算力爆发,模型厂商的ROI提升,会维持算力投入强度。
2)宏观维度,海内外大厂加码资本开支趋势延续。
- 24前三季度腾讯、阿里Capex保持50%以上增速,主要购买GPU和服务器;
- 字节强化、小米入局。豆包模型的成功带动字节25年高额资本开支,投入规模向海外厂商靠拢。小米即将建立万卡集群,投入AI大模型训练。
- 海外微软、谷歌、亚马逊、Meta 24Q2-Q3 Capex增速中位数在50%以上。
3)预期差:国产算力性能和生态突破。
- 2024 年国产 AI 芯片部分产品硬件算力指标接近英伟达 H100。
- 软件生态方面,海光 DTK “类 CUDA” 属性,华为昇腾、寒武纪采用全栈自有路线,工具链完备,适配程度高、算子丰富、社区活跃,均有较大突破。
4)上海:2025年智算将达100EFLOPS。
- “模塑申城”方案印发、智算规模目标超预期。1)12月27日,上海市政府办公厅印发《关于人工智能“模塑申城”的实施方案》,其中提出,到2025年底,建成世界级人工智能产业生态,力争全市智能算力规模突破100EFLOPS,形成50个左右具有显著成效的行业开放语料库示范应用成果,建设3-5个大模型创新加速孵化器,建成一批上下游协同的赋能中心和垂直模型训练场。2)同时,推动重点领域垂直应用,包括金融、制造、教育、医疗、文旅、城市治理等。
- 以服务器及IDC为主、智算投资或约为180亿元。1)服务器:以主流NV H100作为估算基础,根据英伟达官网,1台服务器包括8张H100 GPU,可提供16P算力(FP16)。则100EFLOPS=10万PFLOPS,大约需要6,250台服务器、50,000张H100。根据极云Cloud,H100整机价格从210多万到260多万不等,取250万元/台,则服务器投资约为156亿元。2)IDC建设:根据云赛智联公告,其松江二期数据中心,总投资约8亿元,建设1,124个机柜,功率22MW。参考1台H100服务器功率约为10KW,则可放置2200台服务器。则类比来看,6250台H100服务器,对应的数据中心投资或约为23亿元。3)初步测算,服务器+IDC合计投资,约为180亿元。