首页   

1000字说清周末的“算力之争”

锦缎  · 知识产权  · 3 天前

主要观点总结

本文讨论了关于算力之争和DeepSeek-V3模型训练成本的话题。文章指出,虽然DeepSeek-V3模型训练成本较低,但这并不代表投入减少,而且模型训练的成功对于应用的开发具有好处。文章还提到国内企业在降低成本方面的优势,并认为无需担忧算力之争。硬件成本降低后,软件将迎来大机遇。最后,文章强调明年的AI重点可能会放在软件上。

关键观点总结

关键观点1: DeepSeek-V3模型训练成本低但并不代表投入减少

文章指出,虽然DeepSeek-V3模型使用的算力相对较少,但投入并未因此减少。国内企业在算力投入上仍然很大,如字节在算力上的投入不断增加。

关键观点2: 模型训练的成功对应用开发具有好处

文章认为,模型训练的成功能够启发国内团队,在有限的算力条件下如何更好地压缩硬件需求。这种成功的案例能够鼓励更多的中小公司参与进来,降低开发成本。

关键观点3: 国内企业在降低成本方面的优势

文章提到,国内企业在降低成本方面有着独特的优势。在一些需求不太高的领域,通过降低成本已经能够满足需求。当成本降低到一定程度后,再去提升产品的质量。

关键观点4: 算力之争无需担忧

文章认为,算力之争并不是需要过度担忧的问题。硬件成本的降低将为软件的发展提供更大的机遇。明年的AI重点可能会放在软件上。


正文

本文系基于公开资料撰写,仅作为信息交流之用,不构成任何投资建议

周末最大的分歧,估计就是算力之争了。
刷屏讨论的DeepSeek-V3模型,消息称只用了极少数卡,就完成了训练。
导致周五的算力板块大跌。
周末复盘,也就中国股市有这反馈,美股根本不为所动。
简单想想,今年字节在算力投入800亿,明年预估1600亿。会因为这一个模型的训练成本变化,就减少投入吗?
更何况,经过周末的调查了解,这个DeepSeek是走了捷径的模型。
相当于走迷宫,直接有了地图,而不需要逐一开图试错的模式。
以调研的结果做个解析:
DeepSeek V3 671B,使用2048块H800训练2个月,而Llama 3.1 405B使用1.6万H100训练80天。
需要注意的是:2048块H800并非全部训练算力投入。
1) 不包括DeepSeek R1模型(对标OpenAI o1)生成的高质量数据消耗的算力。
2) 不包括模型架构的探索调试阶段消耗的算力。
第一条,相当于走迷宫直接开了地图。
第二条,相当于走迷宫之前搭建程序的时间忽略不计。
关键词:蒸馏。蒸馏过的小模型训练成本本来就是指数级下降。因为前面有大模型踩完了所有的坑,它千辛万苦收敛成功了,它作为一个“teacher”模型去教一个“student”模型如何做个好模型,时间正好就是两个月,几百张卡的事。

可是之前踩的坑 都不算成本是吧?幻方去年底就有超过10000张gpu,囤这么多卡都是为了吃灰?小米的卡都没它多。要做新闻也行,不要玩文字游戏太狠。——来源:小熊跑的快

其实这是客观条件下,有针对性的训练方法。
走这种探索是非常有意义的,能给国内团队启发,在有限的算力条件下,如何更好的压缩硬件的需求。
就冲这一点来说,未来对于应用的开发是大有好处的。
再换一个说法来解释。
好比做一个国产替代的项目。
海外A公司,用了100w成本,但国内的B公司,用了10w的成本。
虽然可能生成的结果不会令人满意,但在一些需求不太高的领域,可能已经够用。
能凑合用,但成本低,这就是中国公司最擅长的地方。
当成本降到足够低之后,再去提升产品的质量,这是大多数中国企业超越外资的路径。
当年的华为,就是这样慢慢积累成功的。
现在的大模型领域,出现了类似的场景,可以说是很正常的结果。
大家看看豆包做的视觉AI降本,也是类似的结果,降到厘时代,当AI的成本已经忽略不计后,一切应用才有爆发成长的空间。
综上,我认为算力之争无需担忧。
资本开支方面,也不会因为国产大模型的成功,而降低需求。
相反,有更多的国产大模型的成功案例,能让更多的中小公司看到希望,而不是被门槛吓住没有进场的机会。
硬件百花齐放之后,开发成本迅速降低,就是软件的大机遇了。
也就是说,明年的AI重点,或许就是软件了。(作者:laoduo


转载开白 | 商务合作 | 内容交流
请添加微信:jinduan008
添加微信请备注姓名公司与来意

 推 荐 阅 读

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com