首页   

这家公司,让整个硅谷睡不着觉

笔记侠  · 科技自媒体  · 2 天前

正文

本文内容整理自网络公开资料。

责编 |  柒  排版 | 二月
第 8805 篇深度好文:4926 字 | 14 分钟阅读

宏观趋势


笔记君说:
 

一家中国AI公司,用1/30的成本吊打OpenAI,产品冲上美国App Store第六,连《自然》杂志都直呼“疯狂”。


它的创始人却说:“我们没想当鲶鱼,只是好奇。”


这家公司叫DeepSeek,创始人梁文锋极少露面。今天,我们拆解它的逆袭逻辑,给中国创业者一些硬核启示。


去年12月,DeepSeek推出的DeepSeek-V3震撼登场,以极低的训练成本实现了与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能,这一成果震惊了整个业界,甚至引得国外同行在《自然》杂志上发出“这太疯狂了,完全出乎意料”的惊叹。


仅仅时隔不到一个月,DeepSeek再次引发全球AI圈的震动。此次推出的产品虽未公布训练完整成本,但已公布的API定价极具竞争力,每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),每百万输出tokens 16元,这一收费大约仅为OpenAI o1运行成本的三十分之一。



在市场表现上,据新浪财经报道,截至北京时间1月26日15:45,DeepSeek在美区苹果App Store免费榜迅速攀升至第六位,成功超越Google Gemini、Microsoft Copilot等美国科技公司的生成式AI产品。


然而,也在同一天,DeepSeek出现短时闪崩现象,不少网友反映使用时遇到“服务器繁忙”的提示。


DeepSeek在短时间内取得如此成绩,其背后的发展历程令人好奇。它究竟是如何炼成的?36氪旗下的「暗涌」团队分别在2023年5月、2024年7月采访了甚少露面的DeepSeek创始人梁文锋。以下为编辑版。


一、打响价格战,无心插柳成“鲶鱼”

谈及DeepSeek V2引发的大模型价格战,梁文锋表示:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”


对于价格战的结果,他称非常意外,“没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。”


在这之后,众多大厂纷纷跟进降价。梁文锋提到:“智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。”



但DeepSeek降价并非为了抢用户,“我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。


二、专注研究创新,探索AGI之路

当多数中国公司选择直接沿用Llama结构做应用时,DeepSeek却另辟蹊径。梁文锋解释道:“如果目标是做应用,那沿用Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。”


他还指出,Llama的结构在训练效率和推理成本上,和国外先进水平估计已有两代差距,“首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。


另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。”



对于只做研究探索而暂不涉及应用的选择,梁文锋表示:“因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”他认为,随着经济发展,中国应成为技术创新的贡献者,而非一直搭便车。


三、创新驱动发展,打破固有认知

DeepSeek V2让硅谷很多人惊讶,梁文锋认为:“在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司习惯follow,而不是创新。”


面对创新成本高、商业化压力大的问题,梁文锋说:“创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。”


他还提到,中国公司容易把快速商业化当第一要义,是因为过去三十年过于强调赚钱而忽视了创新,“创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。



对于公司的护城河,梁文锋有着清晰的认知:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。”


他还将开源视为一种文化行为,“给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。


四、幻方跨界布局,聚焦通用AI

幻方作为量化基金选择下场做大模型,梁文锋解释:“我们做大模型,其实跟量化和金融都没有直接关系。我们独建了一个名为深度求索的新公司来做这件事。幻方的主要班底里,很多人是做人工智能的。当时我们尝试了很多场景,最终切入了足够复杂的金融,而通用人工智能可能是下一个最难的事之一,所以对我们来说,这是一个怎么做的问题,而不是为什么做的问题。”


他们的目标是通用人工智能(AGI),梁文锋说:“语言大模型可能是通往AGI的必经之路,并且初步具备了AGI的特征,所以我们会从这里开始,后边也会有视觉等。”尽管大厂入局让很多创业型公司放弃通用型大模型方向,但DeepSeek依然专注于此。


梁文锋认为:“现在看起来,无论大厂,还是创业公司,都很难在短时间内建立起碾压对手的技术优势……大厂和创业公司都各有机会。现有垂类场景不掌握在初创公司手上,这个阶段对初创公司不太友好。但因为这种场景说到底也是分散的、碎片化的小需求,所以它又是更适合灵活的创业型组织的。


从长期看,大模型应用门槛会越来越低,初创公司在未来20年任何时候下场,也都有机会。我们的目标也很明确,就是不做垂类和应用,而是做研究,做探索。”



谈及做研究的原因,梁文锋提到:“一种好奇心驱动。从远处说,我们想去验证一些猜想。比如我们理解人类智能本质可能就是语言,人的思维可能就是一个语言的过程……这意味着,在语言大模型上可能诞生出类人的人工智能(AGI)。从近处说,GPT4还有很多待解之谜。我们去复刻的同时,也会做研究揭秘。”


五、算力储备:源于好奇,成于坚持

GPU在ChatGPT创业潮中是稀缺资源,DeepSeek早在2021年就储备了1万枚。梁文锋回忆:“其实从最早的1张卡,到2015年的100张卡、2019年的1000张卡,再到一万张,这个过程是逐步发生的……主要是好奇心驱动。”


这种好奇心源于对AI能力边界的探索,“对研究员来说,对算力的渴求是永无止境的。做了小规模实验后,总想做更大规模的实验。”



对于搭建计算机集群的成本,梁文锋表示:“电费和维护费用其实是很低的,这些支出每年只占硬件造价的1%左右。人工成本不低,但人工成本也是对未来的投资,是公司最大的资产。我们选的人也会相对朴实一点,有好奇心,来这里有机会去做研究。”幻方比一些云厂商更早拿到A100显卡,是因为“我们很早就对新卡做了预研、测试和规划”。


六、本土人才撑起创新天空

OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,梁文锋却表示:“并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。”V2模型研发人员全部来自本土,“前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。”


关于MLA创新,梁文锋介绍:“在总结出Attention架构的一些主流变迁规律后,(一位年轻研究员)突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。”


团队采用自下而上的创新模式和自然分工机制,“我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。”选人标准则是热爱和好奇心,“很多人对做研究的渴望,远超对钱的在意。”


七、展望未来,坚定创新信念

对于创新,梁文锋认为:“创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。ChatGPT出来时,整个国内对做前沿创新都缺乏信心……但创新首先需要自信。这种信心通常在年轻人身上更明显。”尽管DeepSeek不参与融资、很少对外发声,但他相信:“因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。”



对于AGI的实现时间,梁文锋表示:“可能是2年、5年或者10年,总之会在我们有生之年实现。”


DeepSeek押注数学和代码、多模态、自然语言三个方向,“数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学习就能实现很高的智能。


另一方面,可能多模态、参与到人类的真实世界里学习,对AGI也是必要的。我们对一切可能性都保持开放。”他认为大模型终局会是“有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求”。


面对经济下行和资本冷周期,梁文锋持乐观态度:“我倒觉得未必(会抑制原创式创新)。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。”他坚信硬核创新会越来越多,“当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。”



DeepSeek坚持开源,短期内没有融资计划,“我们认为先有一个强大的技术生态更重要”“我们面临的问题从来不是钱,而是高端芯片被禁运”。


梁文锋认为,更多投入不一定产生更多创新,“否则大厂可以把所有的创新包揽了”。


对于不做应用的选择,他表示:“我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期……如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。”


在竞争方面,梁文锋认为大厂和创业公司各有优劣,“大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象”。他推测DeepSeek之外的6家大模型创业公司可能有2到3家存活,“那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式” 。


在打造创新型组织方面,梁文锋总结:“创新需要尽可能少的干预和管理,让每个人有自由发挥的空间和试错机会。创新往往都是自己产生的,不是刻意安排的,更不是教出来的。



在梁文锋看来,创新虽昂贵且低效,但充满意义。“不是所有人都能疯狂一辈子,但大部分人,在他年轻的那些年,可以完全没有功利目的,投入地去做一件事。”梁文锋和他的团队正带着这份好奇心和热情,在AI创新之路上坚定前行。


参考资料:

1.《疯狂的幻方:一家隐形AI巨头的大模型之路,暗涌Waves;

2.《揭秘DeepSeek:一个更极致的中国技术理想主义故事,暗涌Waves;

*文章为作者独立观点,不代表笔记侠立场。


好文阅读推荐


分享、点赞、在看,3连3连!

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com