DeepSeek，掀起算法效率革命（微信文章未删减版）

正文

本文字数：2283｜预计4分钟读完

算法创新，降维打击。

来源丨经济观察报

作者丨欧阳晓红

除夕前夜，国际金融市场见证了龙年收官、蛇年启幕这一“惊蛰”时刻。

从DeepSeek-R1模型到Janus-Pro模型的蛇年首战，直逼全球科技权力重构。

“我不是美国科技泡沫的掘墓人，但AI革命的下半场已启幕。”DeepSeek-R1如此自诩。

如果说上半场是全员狂热挖掘金矿，那么下半场就是精酿啤酒师的竞技场——比拼的不再是铲子的数量，而是谁能用更少的麦芽，酿造出更香醇的黑啤。

从“烧钱信仰”到“效率革命”，市场对这些AI公司的高估值正逐渐产生怀疑。

DeepSeek-R1的崛起或许证明，AI的未来，更取决于算法的创新与效率的极致提升。

资本震荡

“从斯坦福到麻省理工，DeepSeek-R1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。”硅谷投资机构a16z合伙人Anjney Midha说。

1月27日，英伟达下跌16.97%，市值蒸发近6000亿美元；数小时后，DeepSeek-R1工程师在Hugging Face平台开源了Janus-Pro模型，其性能超过了美国人工智能研究公司OpenAI的DALL-E3模型。

其他科技巨头亦未能幸免。微软股价下跌2.14%，阿斯麦（ASML）下跌-5.75%、AMD下跌6.37%。

从技术奇袭的时间线来看，这场颠覆分为两波：第一波始于1月20日， DeepSeek正式发布R1模型，并同步开源模型权重，其性能对齐OpenAI-o1正式版。

据披露，训练DeepSeek-R1模型的成本仅为557万美元，远低于同行，且性能对标OpenAI的GPT-4o。

1月27日，DeepSeek进一步推出iOS应用，并迅速超越ChatGPT官方应用，登顶苹果商店。

业界惊叹，DeepSeek-R1性能指标在多个关键领域，全面超越了现有的尖端AI模型，包括OpenAI的GPT-4.5和Anthropic的Claude系列。

第二波震撼则来自Janus-Pro模型。

北京时间1月28日凌晨3点，DeepSeek在Hugging Face平台开源了这款多模态模型。

根据GenEval（以对象为中心的框架，用于评估文本到图像生成模型的对齐能力）测算，Janus-Pro模型的准确率达84.2%，显著超越DALL-E3的79.7%。

这一结果直接击穿了市场的心理防线。

机构分析师在致客户的报告中指出，美国股市的支柱是以科技巨头为代表的大型科技股，而这些科技股的估值高度依赖AI行业的乐观预期。

DeepSeek的崛起引发了一些质疑，但该公司可能成为动摇AI乐观情绪的关键变量。

技术革命

猝不及防的成本碾压与开源闪电战，一度让华尔街怀疑“烧钱”信仰。

DeepSeek-R1通过动态路由算法压缩80%的冗余计算，训练成本仅为硅谷同行的1/10。

Janus-Pro模型采用“语言模型+校正流”架构，推理成本低至闭源模型的1/10，且支持英伟达H800等非顶级芯片运行。

据介绍，Janus-Pro是一个集成了图像生成、文本生成和语音理解的多模态模型，能够在多个输入和输出类型之间进行高效转换。

开源生态的“降维打击”颇具震慑力。全球开发者贡献代码使该模型的推理效率每小时提升0.3%。

商业替代也在加速。Adobe设计团队已测试用Janus-Pro替代DALL-E 3，成本下降了76%。

Janus-Pro的开发基于DeepSeek-R1的核心优化技术，其训练成本显著低于传统多模态模型。

OpenAI首席执行官萨姆·奥特曼在社交平台X上发文称，DeepSeek的推理大模型R1是一款令人印象深刻的模型，尤其是考虑到其性价比。

他认为，有新的竞争对手加入，着实令人振奋。

随着AI技术的进步，人工智能算力需求将比以往任何时候都更加重要，奥特曼最新言辞亦为英伟达等算力提供商长期利好埋下伏笔。

逻辑颠覆者DeepSeek-R1的威力在于，它证明了AI模型不需要依靠堆积的算力就能取得卓越的性能。

靠着惊人的算法优化和资源利用效率，DeepSeek-R1以极低的成本实现了与OpenAI等巨头相媲美的AI能力。

这就像在告诉人们：你不一定需要一台超级计算机来玩AI游戏，一台优化好的笔记本可能就足够了。

这种颠覆不仅是技术上的突破，更是对AI产业投资逻辑的重构。

市场开始质疑，之前对AI需求的预期是否过于乐观，以及是否存在一个AI科技泡沫。

AI下半场

从“算力军备竞赛”转向“算法效率革命”，DeepSeek-R1的出现或昭示AI革命下半场启幕。

DeepSeek-R1的横空出世，打破了硅谷“堆算力、拼资本”的传统路径。

其仅用557.6万美元和2048块英伟达H800 GPU便完成了性能对标GPT-4o的模型训练，推理成本更是低至每百万Token 0.14美元（OpenAI为7.5美元）。

那么，DeepSeek的“AI大脑”如何更聪明、更省力？

DeepSeek通过四个关键策略，让AI跑得更快、算得更准、用得更省。

混合专家模型（MoE）：让AI不再“全员上阵”，而是“精准派单”。

想象一下，你要建一座大楼，通常会把所有工人都叫来施工，但DeepSeek采用了一种更聪明的方法——“按需调派专家”。

它的AI模型只会在需要时激活部分参数，让最适合的“专家”来处理任务。

这就像是你不需要全公司员工一起修一盏灯，而是派最擅长的电工团队去解决，大大节省计算资源。

多头潜在注意力机制（MLA）：压缩数据，让AI“大脑”更省力。

DeepSeek采用了一种独特的方法，它会“压缩”关键数据，让AI在更少的信息量里找到关键点，减少内存消耗。

就像是你本来需要读整本书才能找答案，但现在AI只需要读一页摘要就能理解所有内容，省时又高效。

强化学习驱动训练：让AI“自己摸索”如何变强。

DeepSeek的AI更像是个“学习型机器人”，它会自己尝试、犯错、调整，再逐步变强。

动态计算路由：智能调度，避免资源浪费DeepSeek采用了“智能调度”策略，让AI计算时更像是一家高效运营的餐厅。

DeepSeek就像是拥有多个点餐窗口，根据客流量实时调整每个窗口的工作量，确保计算资源得到最优利用。

不仅如此，DeepSeek-R1还给出了升华认知的补充视角——能耗革命的冰山一角。

这些技术创新带来的改变，如同电动汽车对燃油车的颠覆。

这套技术组合拳或在重塑AI领域的“生产要素关系”：算力资本主义→算力共享经济；暴力计算霸权→精准认知协作；硬件军备竞赛→算法效率革命。

DeepSeek的低成本模型引发了市场对AI资本支出合理性的质疑，但高盛等机构分析师认为，DeepSeek的崛起可能会推动AI技术的进一步普及。

这恰如DeepSeek-R1的潜台词：别慌，我不是来砸场子的。