首页   

DeepSeek这把火,烧旺了谁,又烧疼了谁?

笔记侠  · 科技自媒体  · 11 小时前

正文

本文内容整理自网络公开资料。

责编 |  001  排版 | 二月
第 8810 篇深度好文:3495 字 | 9分钟阅读

宏观趋势

笔记君说:


这个春节,国内外都在疯狂地讨论DeepSeek带来的影响,笔记侠深入到各个科技社群讨论和各种前沿文章中,为你摘选对你深入认识DeepSeek最有价值的观点。


DeepSeek 不一定是最后的胜者,但它打开一个新思维,对AI产业的贡献是巨大的。2025年,我们必须意识到,AI在应用端的爆发正式开启。


1、为什么大家会觉得DeepSeek厉害?


很大程度上是这两年国内赶得太费劲了,无论是大厂还是创业公司。 


2、DeepSeek的意义


DS的意义在于它是开源的,在取得与GPT一样水平的能力后,开源给了所有人,让创业者可以站在相当于GPT的肩膀上持续开发。


这不仅会大幅降低创业者的门槛与成本,也是类似奥特曼们不太愿意看到的。


更可贵的是,DeepSeek显然算法上也更有优势,逻辑性更好,自我学习能力也更强。


3、谁是受益者?


DS的创新,会极快降低2B、2C的 AI应用成本,极大规模化AI应用市场,提高生产力,同时随着AI对经济生活渗透的深化,会继续长期推高对芯片、能源的需求。


成本加速一个数量级接着一个数量级地干下去,相信未来整个市场会找到数据模型和算力的“拼多多”之道。2025年应该更加大概率加速应用端起飞,开启“Agentic AI”(代理型人工智能)元年。


过去能源对生产力的促进,要面对高技能人才世代培训的瓶颈,现在AI起来了,瓶颈弱化了。能源+AI可以直接更快推动文明的进化。


芯片(含半导体产业)应该是最大的受益者。


梁文锋在访谈中提到,未来对他们的卡点:高端芯片的禁运。


希望中国光刻机也突破一下,光刻机产业链比较长,需要的时间也长。时间是中国人的好朋友。



4、DeepSeek带火了一个经济学名词:


杰文斯悖论,这个悖论指出,技术的进步可能会加速自然资源的消耗。


蒸汽机的进步可以使用更少的煤炭,却导致煤炭需求大幅上升。从这个角度看,社会需要更多的数据中心,更多的AI芯片。


DeepSeek带来的技术进步虽然使单个应用所需资源急剧减少,但总体需求反而增加,导致总资源需求上升。


在一个新技术产业的导入期和增长期,杰文斯悖论的效应明显。


20世纪90年代的手机叫大哥大,跟砖头一样重,一部卖2万人民币。人们都以为其暴利,其实那时的手机部门营收很低。


后来2G的全球通手机出现,一部只卖几千元,城市中产人手一台,才发现大降价带来真正的规模利润。


同理,当AI普及后,市场会变很大。


5、正如计算机有性能的摩尔定律,AI圈也出现了训练的成本曲线:


2020 年,Anthropic 的团队发表过一篇论文,推测算法进步导致的曲线平移约为“每年 1.68 倍”。很可能这一速度如今已经显著加快,大概是“每年 4 倍”左右。


其结果是:在保持模型质量不变的情况下,价格大幅下降的情况已经持续出现好几年了。


Claude 3.5 Sonnet 在最初的 GPT-4 发布 15 个月后才面世,它在几乎所有基准上都超过了 GPT-4,但其 API 价格却便宜了大约 10 倍。


DeepSeek-V3 的训练成本相比于一年前开发的美国现有模型减少了 8 倍左右。



6、不攻自破的5万块A100:


如果DeepSeek有5万多块A100,A100的价格大约在3-3.5万美元,取中间值3.25万美元来计算。5万多块A100,梁文峰要有16亿美金来买。


7、市值最高的10家公司,可能将来替换一半:


AI时代极致技术和产品火爆的速度越来越快了。


Instagram2年半获取过亿用户;TikTok9个月获取过亿用户;Chat GPT2个月获取过亿用户;现在DeepSeek只上线了几天就下载榜首全球第一,这样的速度下去,绝对超过ChatGPT。


这样的速度意味着,高质量的技术创新会更高效地结合商业红利和资本红利,这意味着五年后全球资本市场上现在的市值最高的十家公司很可能50%会被创新企业替代。

8、现实的微软:


微软转头也很快。微软表示,已将DeepSeek的R1人工智能模型在其Azure云计算平台和GitHub 开发者工具上提供。该人工智能模型将在平台的模型目录中提供,并将加入微软提供的 1,800 多个模型。


此举正值微软寻求减少对 ChatGPT制造商OpenAI的依赖之际。


9、所有的业绩会,DeepSeek都成了必问问题:


扎克伯格说,仍在评估其创新点,并计划吸收其中一些技术,无论技术来自哪里,AI领域的进步都需要相互学习,每次的技术发布都会推动整个行业前进。


微软 CEO 萨提亚说,Deepseek 有一些真正的创新。


用于生产芯片的光刻机巨头ASML(阿斯麦) CEO 傅恪礼说,DS会让带来更多半导体(存储芯片、逻辑芯片等)的需求。


10、DeepSeek对英伟达的威胁:


Deep Seek有算力,但不需要像OpenAI那样储备算力。DeepSeek 强大的地方是大幅降低了预训练成本,所以对英伟达构成威胁。


因为推理不一定需要英伟达的芯片,所以DeepSeek 采用了AMD 的推理芯片。


英伟达为此作了回应表示,主要意思是DS 发布的新模型是一项“卓越的人工智能进步”,推理需要大量的英伟达 GPU 和高性能网络。



11、芯片之争,ADM逆袭:


在英伟达的辉煌背后,老牌半导体公司AMD却在苦苦挣扎,那就是 AMD。在 AI 芯片的浪潮中,它却被英伟达远远甩在了身后。


终于,AMD 的推理芯片迎来了曙光。DeepSeek 所代表的推理大模型,为 AMD 提供了一条可能的逆袭之路,双方迅速达成了多维度的合作,包括硬件和软件。


DeepSeek 这次替它做了很好的广告。


英伟达在预训练芯片和推理芯片两个产品系列的需求都受到挑战。


12、“AI 的尽头是能源” 不再是共识:


Deepseek一夜之间不光让英伟达下跌17%,还让如核电、能源公司集体暴跌。


星座能源(Constellation Energy)单日下跌20.85%,Vistra能源暴跌28.27%,小型核电站概念股Oklo和NuScale能源分别下跌25.61%和27.53%。


13、DeepSeek几乎完全开放:

DeepSeek的开放有多彻底?它不但开源、免费可下载和公开了训练方法,而且允许任何人用R1做数据蒸馏,去训练自家的模型,而且你可以商业化。

DeepSeek甚至已经用市面上的两个开源模型,阿里的Qwen和Meta的Llama,蒸馏出来六个小模型供你随便用。它们的跑分都相当高——


这些蒸馏出来的小模型很不简单。其中一个有320亿参数的小模型,数学和编程性能直接超越了o1-mini。

还有一个只有15亿参数的迷你小模型,数学和编程性能已经超过了当今最主流的两个非推理模型,也就是GPT-4o和Claude 3.5 Sonnet——而它小到可以运行在你的个人电脑,甚至是手机上!

14、DeepSeek 的独特秘密与优势:


DeepSeek 的秘密在于采用无人工干预的强化学习。如同AlphaZero自行摸索围棋技巧,DeepSeek 的模型自行掌握推理方法。


训练的基础模型 DeepSeek - R1 - Zero 在训练中自行涌现多种解题能力,如写下解题步骤、自动检查步骤、中断错误思考并重新推导、反思回顾寻找最优解、生成详细步骤、遇难题自动延长推理时间等。


模型还涌现出 “aha 时刻”,仿佛智能自行升级。


因 R1 - Zero中英文混合输出界面不友好,经人性化改进得到 R1。R1 每次输出都提供思考过程,这是OpenAI不愿完全公开的,阅读其思考过程让人感觉它像人一样。


15、大模型蒸馏技术不是剽窃:


知识蒸馏是技术范式,更是AI行业的普遍共识,连OpenAI自己也在蒸馏,并且承认Deepseek是独立发现了推理AI训练的核心路径。


16、Deepseek不为人知的83小时:


25日-29日,83小时,Deepseek服务器集群,受到每秒超过2.3亿次DDos恶意请求,攻击总量相当于整个欧洲三天的网络流量总和。


老一辈互联网企业360安全大脑、华为云的泰山防控,阿里云算力调度算法,海康公共监控算法,网易游戏雷火游戏服务器集群,钉钉紧急通讯池,菜鸟网络物流调度算法,红客联盟等联合进行多层次多维度流量清洗,来守护DeepSeek这个后辈。


最终抗住此次攻击!29日DDos恶意请求已下降了97.2%!曾经的临安古城,各自为战的互联网企业携手抵御了一帮野蛮匈奴在数字领域的突袭!


by @钱钰


*文章为作者独立观点,不代表笔记侠立场。


好文阅读推荐


分享、点赞、在看,3连3连!

推荐文章
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com