除夕前夜,国际金融市场见证了龙年收官、蛇年启幕这一“惊蛰”时刻。
从DeepSeek-R1模型到Janus-Pro模型的蛇年首战,直逼全球科技权力重构。
“我不是美国科技泡沫的掘墓人,但AI革命的下半场已启幕。”DeepSeek-R1如此自诩。
如果说上半场是全员狂热挖掘金矿,那么下半场就是精酿啤酒师的竞技场——比拼的不再是铲子的数量,而是谁能用更少的麦芽,酿造出更香醇的黑啤。
从“烧钱信仰”到“效率革命”,市场对这些AI公司的高估值正逐渐产生怀疑。
DeepSeek-R1的崛起或许证明,AI的未来,更取决于算法的创新与效率的极致提升。
资本震荡
“从斯坦福到麻省理工,DeepSeek-R1几乎一夜之间就成了美国顶尖大学研究人员的首选模型。”硅谷投资机构a16z合伙人Anjney Midha说。
1月27日,英伟达下跌16.97%,市值蒸发近6000亿美元;数小时后,DeepSeek-R1工程师在Hugging Face平台开源了Janus-Pro模型,其性能超过了美国人工智能研究公司OpenAI的DALL-E3模型。
其他科技巨头亦未能幸免。微软股价下跌2.14%,阿斯麦(ASML)下跌-5.75%、AMD下跌6.37%。
从技术奇袭的时间线来看,这场颠覆分为两波:第一波始于1月20日, DeepSeek正式发布R1模型,并同步开源模型权重,其性能对齐OpenAI-o1正式版。
据披露,训练DeepSeek-R1模型的成本仅为557万美元,远低于同行,且性能对标OpenAI的GPT-4o。
1月27日,DeepSeek进一步推出iOS应用,并迅速超越ChatGPT官方应用,登顶苹果商店。
业界惊叹,DeepSeek-R1性能指标在多个关键领域,全面超越了现有的尖端AI模型,包括OpenAI的GPT-4.5和Anthropic的Claude系列。
第二波震撼则来自Janus-Pro模型。
北京时间1月28日凌晨3点,DeepSeek在Hugging Face平台开源了这款多模态模型。
根据GenEval(以对象为中心的框架,用于评估文本到图像生成模型的对齐能力)测算,Janus-Pro模型的准确率达84.2%,显著超越DALL-E3的79.7%。
这一结果直接击穿了市场的心理防线。
机构分析师在致客户的报告中指出,美国股市的支柱是以科技巨头为代表的大型科技股,而这些科技股的估值高度依赖AI行业的乐观预期。
DeepSeek的崛起引发了一些质疑,但该公司可能成为动摇AI乐观情绪的关键变量。
技术革命
猝不及防的成本碾压与开源闪电战,一度让华尔街怀疑“烧钱”信仰。
DeepSeek-R1通过动态路由算法压缩80%的冗余计算,训练成本仅为硅谷同行的1/10。
Janus-Pro模型采用“语言模型+校正流”架构,推理成本低至闭源模型的1/10,且支持英伟达H800等非顶级芯片运行。
据介绍,Janus-Pro是一个集成了图像生成、文本生成和语音理解的多模态模型,能够在多个输入和输出类型之间进行高效转换。
开源生态的“降维打击”颇具震慑力。全球开发者贡献代码使该模型的推理效率每小时提升0.3%。
商业替代也在加速。Adobe设计团队已测试用Janus-Pro替代DALL-E 3,成本下降了76%。
Janus-Pro的开发基于DeepSeek-R1的核心优化技术,其训练成本显著低于传统多模态模型。
OpenAI首席执行官萨姆·奥特曼在社交平台X上发文称,DeepSeek的推理大模型R1是一款令人印象深刻的模型,尤其是考虑到其性价比。
他认为,有新的竞争对手加入,着实令人振奋。
随着AI技术的进步,人工智能算力需求将比以往任何时候都更加重要,奥特曼最新言辞亦为英伟达等算力提供商长期利好埋下伏笔。
逻辑颠覆者DeepSeek-R1的威力在于,它证明了AI模型不需要依靠堆积的算力就能取得卓越的性能。
靠着惊人的算法优化和资源利用效率,DeepSeek-R1以极低的成本实现了与OpenAI等巨头相媲美的AI能力。
这就像在告诉人们:你不一定需要一台超级计算机来玩AI游戏,一台优化好的笔记本可能就足够了。
这种颠覆不仅是技术上的突破,更是对AI产业投资逻辑的重构。
市场开始质疑,之前对AI需求的预期是否过于乐观,以及是否存在一个AI科技泡沫。
AI下半场
从“算力军备竞赛”转向“算法效率革命”,DeepSeek-R1的出现或昭示AI革命下半场启幕。
DeepSeek-R1的横空出世,打破了硅谷“堆算力、拼资本”的传统路径。
其仅用557.6万美元和2048块英伟达H800 GPU便完成了性能对标GPT-4o的模型训练,推理成本更是低至每百万Token 0.14美元(OpenAI为7.5美元)。
那么,DeepSeek的“AI大脑”如何更聪明、更省力?
DeepSeek通过四个关键策略,让AI跑得更快、算得更准、用得更省。
混合专家模型(MoE):让AI不再“全员上阵”,而是“精准派单”。
想象一下,你要建一座大楼,通常会把所有工人都叫来施工,但DeepSeek采用了一种更聪明的方法——“按需调派专家”。
它的AI模型只会在需要时激活部分参数,让最适合的“专家”来处理任务。
这就像是你不需要全公司员工一起修一盏灯,而是派最擅长的电工团队去解决,大大节省计算资源。
多头潜在注意力机制(MLA):压缩数据,让AI“大脑”更省力。
DeepSeek采用了一种独特的方法,它会“压缩”关键数据,让AI在更少的信息量里找到关键点,减少内存消耗。
就像是你本来需要读整本书才能找答案,但现在AI只需要读一页摘要就能理解所有内容,省时又高效。
强化学习驱动训练:让AI“自己摸索”如何变强。
DeepSeek的AI更像是个“学习型机器人”,它会自己尝试、犯错、调整,再逐步变强。
动态计算路由:智能调度,避免资源浪费DeepSeek采用了“智能调度”策略,让AI计算时更像是一家高效运营的餐厅。
DeepSeek就像是拥有多个点餐窗口,根据客流量实时调整每个窗口的工作量,确保计算资源得到最优利用。
不仅如此,DeepSeek-R1还给出了升华认知的补充视角——能耗革命的冰山一角。
这些技术创新带来的改变,如同电动汽车对燃油车的颠覆。
这套技术组合拳或在重塑AI领域的“生产要素关系”:算力资本主义→算力共享经济;暴力计算霸权→精准认知协作;硬件军备竞赛→算法效率革命。
DeepSeek的低成本模型引发了市场对AI资本支出合理性的质疑,但高盛等机构分析师认为,DeepSeek的崛起可能会推动AI技术的进一步普及。
这恰如DeepSeek-R1的潜台词:别慌,我不是来砸场子的。