首页   

DeepSeek,掀起算法效率革命

21世纪商业评论  · 商业  · 16 小时前

正文

本文字数:2283|预计4分钟读完

算法创新,降维打击。


来源丨经济观察报

作者丨欧阳晓红



除夕前夜,国际金融市场见证了龙年收官、蛇年启幕这一“惊蛰”时刻。


从DeepSeek-R1模型到Janus-Pro模型的蛇年首战,直逼全球科技权力重构。


我不是美国科技泡沫的掘墓人,但AI革命的下半场已启幕。”DeepSeek-R1如此自诩。



如果说上半场是全员狂热挖掘金矿,那么下半场就是精酿啤酒师的竞技场——比拼的不再是铲子的数量,而是谁能用更少的麦芽,酿造出更香醇的黑啤。


从“烧钱信仰”到“效率革命”,市场对这些AI公司的高估值正逐渐产生怀疑。


DeepSeek-R1的崛起或许证明,AI的未来,更取决于算法的创新与效率的极致提升。



1


资本震荡



“从斯坦福到麻省理工,DeepSeek-R1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。”硅谷投资机构a16z合伙人Anjney Midha说。


1月27日,英伟达下跌16.97%,市值蒸发近6000亿美元;数小时后,DeepSeek-R1工程师在Hugging Face平台开源了Janus-Pro模型,其性能超过了美国人工智能研究公司OpenAI的DALL-E3模型。


其他科技巨头亦未能幸免。微软股价下跌2.14%,阿斯麦(ASML)下跌-5.75%、AMD下跌6.37%。


从技术奇袭的时间线来看,这场颠覆分为两波:第一波始于1月20日, DeepSeek正式发布R1模型,并同步开源模型权重,其性能对齐OpenAI-o1正式版


据披露,训练DeepSeek-R1模型的成本仅为557万美元,远低于同行,且性能对标OpenAI的GPT-4o。


1月27日,DeepSeek进一步推出iOS应用,并迅速超越ChatGPT官方应用,登顶苹果商店。



业界惊叹,DeepSeek-R1性能指标在多个关键领域,全面超越了现有的尖端AI模型,包括OpenAI的GPT-4.5和Anthropic的Claude系列。


第二波震撼则来自Janus-Pro模型。


北京时间1月28日凌晨3点,DeepSeek在Hugging Face平台开源了这款多模态模型。


根据GenEval(以对象为中心的框架,用于评估文本到图像生成模型的对齐能力)测算,Janus-Pro模型的准确率达84.2%,显著超越DALL-E3的79.7%


这一结果直接击穿了市场的心理防线。


机构分析师在致客户的报告中指出,美国股市的支柱是以科技巨头为代表的大型科技股,而这些科技股的估值高度依赖AI行业的乐观预期。


DeepSeek的崛起引发了一些质疑,但该公司可能成为动摇AI乐观情绪的关键变量。



2


技术革命



猝不及防的成本碾压与开源闪电战,一度让华尔街怀疑“烧钱”信仰。


DeepSeek-R1通过动态路由算法压缩80%的冗余计算,训练成本仅为硅谷同行的1/10。  


Janus-Pro模型采用“语言模型+校正流”架构,推理成本低至闭源模型的1/10,且支持英伟达H800等非顶级芯片运行。


据介绍,Janus-Pro是一个集成了图像生成、文本生成和语音理解的多模态模型,能够在多个输入和输出类型之间进行高效转换。


开源生态的“降维打击”颇具震慑力。全球开发者贡献代码使该模型的推理效率每小时提升0.3%。



商业替代也在加速。Adobe设计团队已测试用Janus-Pro替代DALL-E 3,成本下降了76%。


Janus-Pro的开发基于DeepSeek-R1的核心优化技术,其训练成本显著低于传统多模态模型。


OpenAI首席执行官萨姆·奥特曼在社交平台X上发文称,DeepSeek的推理大模型R1是一款令人印象深刻的模型,尤其是考虑到其性价比。


他认为,有新的竞争对手加入,着实令人振奋。


随着AI技术的进步,人工智能算力需求将比以往任何时候都更加重要,奥特曼最新言辞亦为英伟达等算力提供商长期利好埋下伏笔。


逻辑颠覆者DeepSeek-R1的威力在于,它证明了AI模型不需要依靠堆积的算力就能取得卓越的性能


靠着惊人的算法优化和资源利用效率,DeepSeek-R1以极低的成本实现了与OpenAI等巨头相媲美的AI能力。



这就像在告诉人们:你不一定需要一台超级计算机来玩AI游戏,一台优化好的笔记本可能就足够了。


这种颠覆不仅是技术上的突破,更是对AI产业投资逻辑的重构。


市场开始质疑,之前对AI需求的预期是否过于乐观,以及是否存在一个AI科技泡沫。



3


AI下半场



从“算力军备竞赛”转向“算法效率革命”,DeepSeek-R1的出现或昭示AI革命下半场启幕。


DeepSeek-R1的横空出世,打破了硅谷“堆算力、拼资本”的传统路径


其仅用557.6万美元和2048块英伟达H800 GPU便完成了性能对标GPT-4o的模型训练,推理成本更是低至每百万Token 0.14美元(OpenAI为7.5美元)。



那么,DeepSeek的“AI大脑”如何更聪明、更省力?


DeepSeek通过四个关键策略,让AI跑得更快、算得更准、用得更省。


混合专家模型(MoE):让AI不再“全员上阵”,而是“精准派单”。


想象一下,你要建一座大楼,通常会把所有工人都叫来施工,但DeepSeek采用了一种更聪明的方法——“按需调派专家”。


它的AI模型只会在需要时激活部分参数,让最适合的“专家”来处理任务。


这就像是你不需要全公司员工一起修一盏灯,而是派最擅长的电工团队去解决,大大节省计算资源。


多头潜在注意力机制(MLA):压缩数据,让AI“大脑”更省力。


DeepSeek采用了一种独特的方法,它会“压缩”关键数据,让AI在更少的信息量里找到关键点,减少内存消耗。


就像是你本来需要读整本书才能找答案,但现在AI只需要读一页摘要就能理解所有内容,省时又高效。


强化学习驱动训练:让AI“自己摸索”如何变强。


DeepSeek的AI更像是个“学习型机器人”,它会自己尝试、犯错、调整,再逐步变强。


动态计算路由:智能调度,避免资源浪费DeepSeek采用了“智能调度”策略,让AI计算时更像是一家高效运营的餐厅。


DeepSeek就像是拥有多个点餐窗口,根据客流量实时调整每个窗口的工作量,确保计算资源得到最优利用。



不仅如此,DeepSeek-R1还给出了升华认知的补充视角——能耗革命的冰山一角。


这些技术创新带来的改变,如同电动汽车对燃油车的颠覆


这套技术组合拳或在重塑AI领域的“生产要素关系”:算力资本主义→算力共享经济;暴力计算霸权→精准认知协作;硬件军备竞赛→算法效率革命。


DeepSeek的低成本模型引发了市场对AI资本支出合理性的质疑,但高盛等机构分析师认为,DeepSeek的崛起可能会推动AI技术的进一步普及。


这恰如DeepSeek-R1的潜台词:别慌,我不是来砸场子的。




© 2024 精读
删除内容请联系邮箱 2879853325@qq.com