首页   

深度|Anthropic CEO万字长文:DeepSeek不是我们的对手,锁死芯片出口才能保证美国领导下的单极世界

Z Finance  · 科技媒体  · 昨天

主要观点总结

本文是Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 对DeepSeek 的成功以及美国对人工智能芯片的出口管制政策的评论和分析。文章涵盖了DeepSeek模型的进展、人工智能发展的三大动力、DeepSeek模型的特点以及美国对华芯片出口管制的讨论。

关键观点总结

关键观点1: DeepSeek模型的进展和评估

DeepSeek发布的模型接近美国模型的性能,但在某些任务上仍有差距。DeepSeek的创新主要集中在工程效率上,如键值缓存和专家混合方法的改进。

关键观点2: 人工智能发展的三大动力

扩展定律、改变曲线和转变范式是人工智能发展的三大动力。这些动力影响着AI系统的训练和改进,并导致成本效益的提高。

关键观点3: 出口管制的重要性

达里奥·阿莫迪强调了出口管制在防止中国追赶美国人工智能发展方面的重要性。他认为只有严格执行出口管制才能阻止中国获得必需的技术资源。

关键观点4: DeepSeek对美国AI公司的影响

DeepSeek的发布并没有对美国的AI公司构成根本性的威胁,但突显了竞争的重要性以及出口管制政策的必要性。


正文

图片来源:Anthropic

周三,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文,对DeepSeek 的成功是否威胁到了美国,以及意味着美国对人工智能芯片的出口管制不起作用的争论进行了分析。

以下是原文翻译,文中的“我”指代达里奥·阿莫迪。

图片来源:Dario Amodei

几周前,我主张美国加强对华芯片出口管制。自那以后,中国人工智能公司 DeepSeek 至少在某些方面以更低的成本接近美国前沿人工智能模型的性能。

在这里,我不会关注 DeepSeek 是否对 Anthropic 等美国人工智能公司构成威胁(尽管我确实认为,许多关于它们对美国人工智能领导地位构成威胁的说法都被大大夸大了)1。相反,我将关注 DeepSeek 的发布是否会破坏芯片出口管制政策的理由。我认为不会。事实上, 我认为它们使出口管制政策比一周前更加重要2

出口管制有一个至关重要的目的:让美国走在人工智能发展的前沿。需要明确的是,这不是避开美国和中国之间竞争的方法。归根结底,如果我们想获胜,美国的人工智能公司必须拥有比中国更好的模式。我们不应该在没有必要的情况下将技术优势拱手让给中国。

人工智能发展的三大动力

在我提出政策论点之前,我将描述理解AI系统的三个至关重要的基本动态:

  1. 扩展定律(Scaling Laws)。人工智能的一个特性(我和我的联合创始人 在 OpenAI 工作时是第一批记录下来的)是,在其他条件相同的情况下, 扩大人工智能系统的训练范围可以全面改善一系列认知任务的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,价值 1000 万美元的模型可能解决 40%,价值 1 亿美元的模型可能解决 60%,等等。这些差异在实践中往往会产生巨大的影响——另一个 10 倍可能对应于本科生和博士生技能水平之间的差异——因此公司正在大力投资训练这些模型。
  2. 改变曲线。这个领域不断涌现出大大小小的想法,使事情变得更加有效或高效:这可能是模型架构的改进(对当今所有模型使用的 Transformer 基本架构进行调整),也可能只是一种在底层硬件上更有效地运行模型的方法。新一代硬件也有同样的效果。这通常改变曲线:如果创新是 2 倍的“计算乘数”(CM),那么它可以让您以 500 万美元而不是 1000 万美元的价格获得 40% 的编码任务;或者以 5000 万美元而不是 1 亿美元的价格获得 60% 的编码任务,等等。
    每个前沿 AI 公司都会定期发现许多这样的 CM:通常是小型的(~1.2 倍),有时是中型的(~2 倍),偶尔也会发现非常大的(~10 倍)。由于拥有更智能系统的价值如此之高,这种曲线的转变通常会导致公司 在训练模型上花费更多,而不是更少:成本效率的提高最终完全用于训练更智能的模型,仅受公司财务资源的限制。人们自然会被“一开始很贵,然后会变得更便宜”的想法所吸引——好像人工智能是一个质量恒定的单一事物,当它变得更便宜时,我们会使用更少的芯片来训练它。
    但重要的是缩放曲线:当它移动时,我们只是更快地遍历它,因为曲线末端的价值是如此之高。2020 年,我的团队发表了一篇论文,指出由于算法进步导致的曲线变化约为每年 1.68 倍。自那以后,这一速度可能已经大大加快;它也没有考虑到效率和硬件。
    我猜今天的数字可能是每年约 4 倍。另一个估计是在这里。训练曲线的变化也会改变推理曲线,因此多年来,在模型质量保持不变的情况下,价格大幅下降。例如,比原始 GPT-4 晚 15 个月发布的 Claude 3.5 Sonnet 在几乎所有基准测试中都胜过 GPT-4,同时 API 价格降低了约 10 倍。
  3. 转变范式。每隔一段时间,正在扩展的底层内容就会发生一些变化,或者在训练过程中会添加一种新的扩展类型。从 2020 年到 2023 年,扩展的主要内容是预训练模型:在越来越多的互联网文本上训练模型,并在其基础上进行少量其他训练。2024 年,使用强化学习(RL) 训练模型以生成思维链的想法已成为扩展的新焦点。
    Anthropic、DeepSeek 和许多其他公司(也许最值得注意的是 9 月份发布了 o1 预览模型的 OpenAI)发现,这种训练极大地提高了某些选定的、客观可衡量的任务(如数学、编码竞赛)以及类似于这些任务的推理的性能。
    这种新范式涉及从普通类型的预训练模型开始,然后在第二阶段使用 RL 添加推理技能。重要的是,由于这种类型的强化学习是新的,我们仍处于扩展曲线的早期阶段:对于所有参与者来说,在第二个强化学习阶段花费的金额都很小。花费 100 万美元而不是 10 万美元就足以获得巨大的收益。
    各家公司现在正在迅速将第二阶段的规模扩大到数亿甚至数十亿美元,但重要的是要明白,我们正处于一个独特的“交叉点”,其中有一个强大的新范式处于扩展曲线的早期阶段,因此可以快速获得巨大收益。

DeepSeek 的模型

上述三个动态可以帮助我们了解 DeepSeek 最近的发布。大约一个月前,DeepSeek 发布了一个名为“ DeepSeek-V3 ”的模型,这是一个纯粹的预训练模型 即上文第 3 点中描述的第一阶段。然后上周,他们发布了“ R1 ”,其中增加了第二阶段。从外部无法确定这些模型的所有内容,但以下是我对这两个版本的最佳理解。

DeepSeek-V3实际上是真正的创新, 一个月前就应该引起人们的注意(我们确实注意到了)。作为预训练模型,它似乎在一些重要任务上的表现接近4个最先进的美国模型,同时训练成本大大降低(尽管我们发现 Claude 3.5 Sonnet 在其他一些关键任务上的表现尤其好)。DeepSeek 团队通过一些真正的、令人印象深刻的创新实现了这一点,这些创新主要集中在工程效率上。在管理称为“键值缓存”的方面以及使一种称为“专家混合”的方法比以前更进一步方面,都有特别创新的改进。

然而,仔细观察是很重要的:

  1. DeepSeek 不会“以 600 万美元完成美国 AI 公司花费数十亿美元完成的任务”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中型模型,训练成本高达几千万美元(我不会给出确切数字)。此外,3.5 Sonnet的训练方式并未涉及更大或更昂贵的模型(与一些传言相反)。Sonnet 的训练是在 9-12 个月前进行的,DeepSeek 的模型是在 11 月/12 月进行的,而 Sonnet 在许多内部和外部评估中仍然遥遥领先。因此,我认为一个公平的说法是“ DeepSeek 生产的模型接近 7-10 个月前美国模型的性能,成本要低得多(但远不及人们建议的比例) ”
  2. 如果成本曲线下降的历史趋势是每年约 4 倍,这意味着现在的模型比 3.5 Sonnet/GPT-4o 便宜 3-4 倍。由于 DeepSeek-V3 比美国前沿模型更差——假设在扩展曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说相当慷慨——这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,这将是完全正常的,完全“符合趋势”。
    我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看 DeepSeek 的训练成本,它们充其量也符合趋势,甚至可能甚至不符合趋势。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 推理价格差异(10 倍)要小,而且 3.5 Sonnet 是一个比 GPT-4 更好的模型。 所有这些都表明,DeepSeek-V3 并不是一项独特的突破,也不是从根本上改变 LLM 经济的东西;它是持续成本降低曲线上的一个预期点。
    这次的不同之处在于,第一个展示预期成本降低的公司是中国公司。 这种情况从未发生过,具有地缘政治意义。然而,美国公司很快就会效仿——他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在实现成本降低的通常趋势。
  3. DeepSeek 和美国 AI 公司都拥有比他们训练主要模型时更多的资金和芯片。额外的芯片用于研发以开发模型背后的理念,有时用于训练尚未准备好的大型模型(或需要多次尝试才能正确)。据报道 — — 我们不能确定它是否属实 — — DeepSeek 实际上拥有 50,000 个 Hopper 代芯片6,我猜这大约是美国主要 AI 公司所拥有芯片的 2-3 倍(例如,它比 xAI“ Colossus ”集群少 2-3 倍)7。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。 因此,DeepSeek 作为一家公司的总支出(与训练单个模型的支出不同)与美国 AI 实验室并没有太大差别。
  4. 值得注意的是,“缩放曲线”分析有些过于简单化,因为模型之间存在一定差异,各有优缺点;缩放曲线数字是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,但正如我上面所暗示的,Claude 非常擅长编码,并且拥有精心设计的与人互动的风格(许多人用它来获得个人建议或支持)。在这些任务和其他一些任务上,DeepSeek 根本无法与之相比。这些因素没有出现在缩放数字中。

R1是上周发布的模型,它引发了公众的强烈关注(包括 Nvidia 股价下跌约 17% ),但从创新或工程角度来看,它远不如 V3 那么有趣。它增加了第二阶段的训练——强化学习,如上一节第 3 点所述——并且基本上复制了 OpenAI 对 o1 所做的事情(它们的规模似乎相似,结果也相似) 8

但是,因为我们处于扩展曲线的早期阶段,所以只要从强大的预训练模型开始,多家公司都可以生产这种类型的模型。在 V3 的情况下生产 R1 可能非常便宜。因此,我们处于一个有趣的“交叉点”,暂时有几家公司可以生产出好的推理模型。随着每个人都在这些模型的扩展曲线上进一步向上移动,这种情况将迅速不再成立。

出口管制

以上只是我感兴趣的主要话题的序言:对华芯片出口管制。鉴于上述事实,我认为情况如下:

  1. 有一种趋势是,公司在训练强大的人工智能模型上投入了越来越多的资金 ,尽管曲线会定期发生变化,训练特定水平的模型智能的成本会迅速下降。只是训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉——它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同。
    在美国实验室尚未发现的情况下,DeepSeek 开发的效率创新将很快被美国和中国的实验室应用于训练价值数十亿美元的模型。这些模型的表现将优于他们之前计划训练的价值数十亿美元的模型——但他们仍将花费数十亿美元。这个数字将继续上升,直到我们拥有在几乎所有事情上都比几乎所有人类更聪明的人工智能。
  2. 制造出在几乎所有方面都比人类更聪明的人工智能将需要数百万个芯片,数百亿美元(至少),而且最有可能在 2026-2027 年实现。DeepSeek 的发布不会改变这一点,因为它们大致处于预期的成本降低曲线上,而这一直被计入这些计算中。
  3. 这意味着,在 2026-2027 年,我们可能会陷入两个截然不同的世界。在美国,多家公司肯定会拥有所需的数百万个芯片(成本高达数百亿美元)。问题是中国是否也能获得数百万个芯片9
    如果可以的话,我们将生活在一个两极世界,美国和中国都拥有强大的人工智能模型,这将推动科学技术的极速进步——我称之为“数据中心的天才国家”。两极世界不一定会无限期保持平衡。即使美国和中国在人工智能系统方面势均力敌,中国以其庞大的工业基础,可以帮助中国在全球舞台上占据主导地位,不仅是在人工智能领域,而是在所有领域。
    如果中国无法获得数百万个芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续下去,但至少存在这样一种可能性,即由于人工智能系统最终可以帮助制造更智能的人工智能系统,暂时的领先优势可以转化为持久的优势。因此,在这个世界上,美国及其盟友可能会在全球舞台上占据主导地位并保持长期领先。
  4. 只有严格执行出口管制11才能阻止中国获得数百万芯片,因此也是决定我们最终是进入单极世界还是两极世界最重要的因素。
  5. DeepSeek 的表现并不意味着出口管制失败。正如我上面所说,DeepSeek 拥有中等到大量的芯片,因此他们能够开发并训练出强大的模型也就不足为奇了。他们的资源限制并不比美国 AI 公司严重,出口管制也不是促使他们“创新”的主要因素。他们只是非常有才华的工程师,并展示了为什么中国是美国的有力竞争对手。
  6. DeepSeek 也没有表明管制总是有漏洞。10 亿美元的经济活动可以隐藏,但很难隐藏 1000 亿美元甚至 100 亿美元。100 万个芯片在物理上也很难走私。
    看看 DeepSeek 目前报道的芯片也是有启发性的。 根据 SemiAnalysis 的说法,这是 H100、H800 和 H20 的混合体,总计 5 万个。自发布以来,H100 就被出口管制禁止,所以如果 DeepSeek 有任何芯片,它们一定不是通过正规渠道来的(请注意,Nvidia 已声 DeepSeek 的进展“完全符合出口管制”)。H800 在 2022 年第一轮出口管中是被允许的,但在 2023 年 10 月管制 时被禁止,所以这些芯片可能是在禁令之前发货的。H20 的训练效率较低,采样效率较高——虽然我认为应该禁止,但仍然被允许。
    所有这些都表明,DeepSeek 的 AI 芯片群中似乎有相当一部分是由尚未被禁止(但应该被禁止)的芯片。这表明出口管制确实在发挥作用和适应:漏洞正在被堵塞如果我们能够足够快地堵塞它们,我们也许能够增加美国领导单极世界的可能性。

鉴于我关注的是出口管制和美国国家安全,我想明确一点。我不认为 DeepSeek 本身是对手,重点也不是特别针对他们。在他们接受的采访中,他们看起来像是聪明、好奇的研究人员,只是想开发有用的技术。

但出口管制是我们防止中国追赶美国的最有力工具之一 。认为技术越来越强大、性价比越来越高是解除出口管制的理由的想法是完全没有道理的。

脚注

[1] 在本文中,我不会对西方模型的提炼报告持任何立场。在这里,我只是相信 DeepSeek 的说法,他们按照论文中说的方式进行训练 。
[2] 顺便说一句,我认为 DeepSeek 模型的发布对 Nvidia 来说显然不是坏事,而他们的股价因此而出现两位数(约 17%)的下跌令人费解。这次发布对 Nvidia 来说不是坏事的理由甚至比对 AI 公司来说不是坏事的理由更明显。但我在这篇文章中的主要目标是捍卫出口管制政策 。
[3] 准确地说,它是一个预训练模型,其中包含推理范式转变之前模型中典型的少量 RL 训练 。
[4] 它在一些非常狭窄的任务上表现更强 。
[5] 这是DeepSeek 论文中引用的数字 ——我只是照单全收,并不怀疑这部分内容,只是与美国公司模型训练成本的比较,以及训练特定模型的成本(600 万美元)与研发总成本(高得多)之间的区别。然而,我们也不能完全确定 600 万美元——模型大小是可验证的,但其他方面(如代币数量)则不可验证 。↩
[6] 在一些采访中 ,我说他们有“50,000 块 H100”,这是对报道的一个微妙的错误总结,我想在这里纠正一下。迄今为止,最知名的“Hopper 芯片”是 H100(我猜想指的是它),但 Hopper 还包括 H800 和 H20,据报道 DeepSeek 拥有这三种芯片的混合,总计 50,000 块。这并没有改变太多情况,但值得纠正。当我谈论出口管制时,我会更多地讨论 H800 和 H20。↩
[7] 注:由于出口管制,我预计这一差距在下一代集群中会大大扩大 。
[8] 我怀疑 R1 受到如此多关注的主要原因之一是它是第一个向 用户展示模型所展现的思路推理的模型(OpenAI 的 o1 仅显示最终答案)。DeepSeek 表明用户对此很感兴趣。需要明确的是,这是一个用户界面选择,与模型本身无关。
[9] 中国自己的芯片短期内无法与美国制造的芯片竞争。 
参考资料:
[1] https://techcrunch.com/2025/01/29/anthropics-ceo-says-deepseek-shows-that-u-s-export-rules-are-working-as-intended/
[2] https://darioamodei.com/on-deepseek-and-export-controls

欢迎扫码加群参与讨论

---------END--------

我们相信认知能够跨越阶层,

致力于为年轻人提供高质量的科技和财经内容。

🚀 我们正在招募新一期的Z Explorer

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com