独角兽智库发展至今,历时9年,积累了大量资源,也和顶尖投研资源形成了利益共同体,并经过今年近一年的产品测试,小范围会员服务近两年。
十一月精准把握住了固态电池、AI+等板块机会,个股桂发祥、华胜天成、供销大集等
现开放体验名额,加微信:itouzi8888,文末有二维码
2.24-2.28,Deepseek陆续开源了五个与AI infra相关的项目,主要涉及其在模型效率优化方面的进展。周六,Deepseek官方发布了更为详细的推理系统介绍,特别值得注意的是,文章首次公开了Deepseek的理论成本、利润率等关键信息。
本次电话会主题围绕过去一周Deepseek开源项目,今晚我们邀请了国内大模型领域的专家进行解读。
专家:
首先,我会回顾Deepseek本周开源项目,然后对这些项目的特点进行简要介绍,并分析它们对行业上下游以及公司可能产生的影响。
一、开源项目介绍
在这一周的开源发布中,Deepseek主要推出了针对NVIDIA Hopper GPU硬件架构特性和新一代MOE模型架构的优化和设计。MOE模型是Deepseek的核心架构之一。我们可以将本次开源的项目分为三大类:数据准备、模型训练和模型推理优化。
1、数据准备环节:
3FS:这是一个面向大模型场景的分布式系统,旨在大幅缩减硬盘与GPU之间文件传输的I/O时间。
Smallpond:基于3FS系统的轻量级数据处理框架。可以看作是与3FS配套的加速工具,旨在提升数据传输效率。
2、模型训练环节:
(1) FlashMLA:这是一个面向Hopper GPU的高效MLA解码内核,专门优化可变长度序列的服务场景,尤其是在大模型序列变长时,优化了计算和内存消耗。
(2) DeepGEMM、DeepEP、DualPipe:这些是与模型训练加速相关的优化工作,提升了模型训练过程中的效率。
3、模型推理环节:
EPLB:这是一个MOE模型中的专家并行负载均衡推理算法,优化了模型推理的速度和精度。
二、详细介绍项目
Deepseek的模型架构由MOE架构和其自创的MLA(Multi-Head Latent Attention)架构构成,这两者是该模型的核心特点。基于这些架构,Deepseek进行了多项加速优化,推动了推理和训练效率的提升。此次开源项目的优化,特别是在算法和硬件适配上的创新,与Deepseek的核心架构紧密相关。
1、FlashMLA:
FlashMLA是专门面向Hopper GPU的一款高效解码内核,针对大模型中可变长度序列的处理进行了优化。可变长度序列在大模型中,尤其是长文档或长对话的处理过程中,会导致计算开销急剧增加。FlashMLA通过优化Attention机制,显著提高了长短不一序列的处理速度。它的优化体现在内存带宽上达到了3000 GB/s,计算性能上达到了580 TFLOPS,几乎接近H800 GPU的性能极限。
简单来说,FlashMLA是一种针对Attention机制(尤其是MLA架构)的核心优化,它解决了大语言模型中注意力机制计算复杂度和内存消耗的问题。FlashMLA的发布展示了Deepseek从算法层面到硬件适配的全栈优化能力,也暗示了未来大模型架构可能会从算法层面突破现有的计算复杂度限制。
FlashMLA优化了Attention机制,提升了大语言模型的推理速度和能力。通过这一技术,Deepseek不仅展示了其算法优化的实力,也展示了从硬件适配到算法实现的全栈优化能力。这为未来大模型的演进奠定了基础,也为Deepseek的后续版本(如R2)可能发布的全栈优化工作提供了预示。
2、DeepEP:
第二天,Deepseek发布了一个名为DeepEP的项目,这是一个针对MOE(混合专家模型)架构的优化工作。DeepEP是首个开源的专家并行通信库,主要解决了MOE模型中不同专家之间的通信效率问题。MOE模型通过只激活特定的专家来提高计算效率,而DeepEP优化了这些专家之间的通信效率。简单来说,它就像是为MOE架构中的专家团队提供了一个高效的沟通系统,使得专家间的信息传递速度极为迅速,极大提升了模型的整体效率。
DeepEP的开源和优化,表明了Deepseek对MOE架构作为下一代大模型架构的战略布局。传统的密集(Dense)模型已经接近效率瓶颈,而MOE模型代表了在参数规模和计算效率之间的平衡,成为了新的发展方向。然而,MOE模型的高效实现依赖于专家之间的低延迟通信,DeepEP正是解决这一挑战的关键技术。通过这一优化,Deepseek为MOE架构提供了技术优势,推动了开源社区和行业进一步深挖MOE架构。随着DeepEP的发布,MOE架构有可能成为未来的主流选择。MOE模型和Dense模型有着明显的区别,因此,如果团队已经在MOE模型上投入大量工作,他们将难以转向Dense模型。同样地,已经在Dense模型上深耕的团队也难以切换到MOE模型。因此,Deepseek在MOE架构上的优化工作,促进了整个行业在MOE领域的进一步发展,也可能导致更多团队舍弃Dense路线,转向MOE模型。
3、DeepGEMM:
接下来,第三天Deepseek发布了DeepGEMM项目,这是一款针对DeepSeek-V3架构专门设计的、用于FP8精度的通用矩阵乘法(GEMM)优化库。DeepGEMM支持普通模型和MOE混合专家模型(Mix-of-Experts, MoE)中矩阵乘法的运算,且仅支持H系列GPU。它通过优化FP8计算,提供了极致的矩阵乘法速度,特别适用于DeepSeek-V3模型。
DeepGEMM是深度学习中最基础的操作之一,矩阵乘法在AI模型计算中占据了重要地位,几乎所有的深度学习模型都需要进行矩阵乘法运算。DeepGEMM的设计优化使其在矩阵乘法计算上比Nvidia自家的库快了约2.7倍,而且只用大约300行代码。它的优化极大提升了基础算子的计算效率,并展示了Deepseek在硬件优化方面的能力。这个优化不仅加速了DeepSeek-V3的运算,还为AI模型的底层计算提供了一个良好的优化范本。
Deepseek的DeepEP和DeepGEMM项目分别针对MOE架构的专家通信和基础矩阵乘法进行了优化,推动了行业对MOE架构的进一步关注,同时也为DeepSeek-V3架构的应用提供了更加高效的计算工具。
4、DualPipe和EPLB:
第四天,Deepseek发布了DualPipe和EPLB两个项目。
DualPipe是一个双向流水线并行算法,旨在优化DeepSeek-V3和R1模型训练中的计算与通信重叠时间,减少流水线上的气泡(即等待时间)。在训练过程中,显卡可能会因为等待其他显卡的计算或通信而处于空闲状态,称为流水线气泡。DualPipe算法通过在等待时间内分配其他任务,充分利用显卡的空闲时间,从而提高计算资源的利用率和训练速度。该算法目前仅支持NVIDIA的H系列显卡,使用时需要配备H系列GPU。
EPLB(专家并行负载均衡器)是一个冗余专家策略,旨在优化硬件利用率,减少推理阶段的资源浪费。EPLB主要通过均衡多个专家之间的工作负载,避免某个专家过载或空闲,提高推理效率。与DualPipe不同,EPLB不仅限于DeepSeek模型,它具有较强的通用性,能够在各种MOE模型中使用。EPLB同样只支持H系列显卡。
通俗理解,DualPipe类似于生产线上的多条流水线,优化等待时间,以填充显卡的空闲期,从而提升效率;而EPLB像是对多位专家的工作负载进行智能调度,确保各专家高效运行,不会出现过载或空闲现象,进一步提升推理速度。
DualPipe和EPLB解决了大规模并行训练中的关键问题:计算资源利用率低和负载不均衡。DualPipe通过重新编排计算任务,打破传统的流水线并行模式;EPLB则为MOE模型提供了智能资源调度策略。这两个技术的开源,体现了Deepseek在分布式系统优化上的深入思考,尤其是针对H系列显卡的优化,推动了开源社区和行业在这一领域的发展。
5、3FS文件系统和Smallpond:
第五天,Deepseek发布了3FS文件系统和Smallpond。
3FS是一种高性能并行文件系统,能够实现文件系统与GPU之间的快速数据传输。它的设计目标是提升在大规模数据处理和大模型训练中的数据访问效率,尤其适用于需要高效数据传输的任务。
Smallpond是基于3FS的一个分析工具,适用于处理海量数据。它的设计主要为优化硬盘与GPU之间的传输效率,尤其适合大规模计算任务,如大模型训练。Smallpond最初是幻方量化团队的技术,被Deepseek团队采用并开源。Smallpond具有广泛的通用性,可以用于不同类型模型的文件传输和GPU通信,尤其在量化和大模型训练中表现突出。尽管它最初用于量化优化,但由于量化过程也需要处理大量数据,因此Smallpond的底层传输技术也能有效提升大模型训练中的数据处理效率。
3FS和Smallpond的组合极大提升了数据处理效率,并颠覆了传统的数据准备模式,从“先处理后训练”转变为“边处理边训练”。这两个技术不仅优化了训练过程中的加速算法,还在数据处理环节实现了加速,进一步推动了整个训练流程的高效化。Deepseek将这些技术开源,几乎覆盖了整个训练过程,开发者可以基于这些开源工具部署和训练Deepseek模型,接近Deepseek团队的训练速度。
三、One More Thing:V3和R1推理系统的利润率情况
Deepseek还发布了一个名为One More Thing的报告,揭秘了V3和R1推理系统的利润率情况。
报告中展示了一天内GPU的消耗和理论收入的对比。蓝色部分代表理论收入,黄色部分代表GPU成本消耗。可以看到,蓝色部分远高于黄色部分。根据计算,成本利润率大约为545%,这些数据是基于Deepseek R1模型的标准API定价进行测算的。然而,实际收入远低于这个数字,因为大部分调用并不是Deepseek R1,而是Deepseek V3。具体比例没有公布,也未进行测算。
![图片]()
以ChatGPT为例,ChatGPT-4的推理占比约为80%,而GPT-3的推理模型占比约为20%。类似地,Deepseek V3的API调用占绝大多数,且V3的定价远低于R1。因此,以R1的标准定价来计算实际收入存在偏差,实际收入会低于理论收入。
只有部分服务实现了货币化,网页和APP访问都是免费的,但这些已计入实际价格。此外,非高峰时段也有夜间折扣,不是按标准API价格计算。
如果所有时段和API调用都按标准定价,且全部使用推理模型服务,利润率将非常高。发布成本利润率的目的是鼓励同行部署此模型为用户提供服务。由于这一周发布的推理加速和成本优化工作已基本开源,大家可以简单部署低成本的R1模型来提供服务。报告显示,高利润率是为了鼓励更多人部署和提供服务,表明大家不会亏钱。
推理系统的设计采用了计算和通信重叠架构,即在计算的同时进行通信,将计算过程中的空余时间用通信任务填充,从而大幅提升计算效率。
系统包括多个专家模型来实现负载均衡。在编码和解码阶段,专家模型分别参与负载均衡,确保各个阶段的高效运行。整个系统通过这种架构设计提升了推理性能和服务质量。
四、总结:Deepseek开源周的项目特点
1. 项目集中于AI infra加速:本次开源周的项目主要围绕AI infra的加速进行,包括高效解码计算,如Flash MLA、DeepGEMM等。这些项目利用了最新硬件(如Hopper GPU)和低精度格式(如FP8),以减少内存和计算需求。还包括优化通信、并行处理、负载均衡、性能分析和数据处理优化,整体旨在加速Deepseek系列模型的训练和推理,并有一些泛化的加速项目。
2. 专门针对NVIDIA H系列GPU优化:大约一半的项目专门针对NVIDIA H系列卡进行优化,例如Flash MLA、DeepEP、DeepGEMM等。这些优化仅适用于H系列GPU,无法在A100、A800等A系列GPU上使用。因此,这些优化是特定硬件绑定的,无法泛用到其他GPU型号。
3. 专门优化Deepseek V3和R1系列模型:许多项目专门为Deepseek V3和R1等模型进行优化。例如,Flash MLA专为V3和R1的MOA解码进行优化,DualPipe也为V3和R1优化,DeepEP优化MOE模型的通信,DeepGEMM针对FP8精度优化,EPLB则优化MOE模型的计算。这些项目大多与Deepseek系列模型强绑定,但也有一些通用项目和加速工具开源,以便其他厂商提供类似API服务。
开源周的项目主要集中在针对特定硬件(H系列GPU)和特定模型(如Deepseek V3、R1)进行优化,但也有一些通用工具和加速项目,支持更广泛的应用。
五、主要影响
1、边际上,可能会利好广大的中小云服务的供应商,还有AI应用团队进一步降低Deepseek部署成本,扩大Deepseek的使用范围。
降低Deepseek部署成本并扩大使用范围:这些开源工具专为Deepseek的V3和R1系列模型优化(如Flash MLA和DualPipe等),将有助于中小云服务供应商和AI应用团队降低部署成本。通过开源工具,更多公司能够更轻松地采用Deepseek模型,避免了大量适配工作。因此,更多公司会倾向于选择Deepseek模型,从而提高R1模型的采用率,并扩大Deepseek模型在开源市场的影响力。
解决复现困难:Deepseek在发布论文和模型后,尽管提供了详细的部署方法,但很多厂商未能有效复现论文中的成果,导致Deepseek服务器高负载,且其他厂商部署的Deepseek模型效率低下。很多第三方服务商采用低效部署方式,造成推理速度慢、用户体验差,且成本高,这使得很多中小型云服务厂商无法以合理的成本提供与Deepseek相同水平的服务。由于亏损严重,一些厂商每月可能亏损上亿元,这在长期内不可持续。
促进大规模使用和生态建设:为了扩大Deepseek模型的影响力,并加速生态系统的发展,Deepseek选择将具体的部署代码开源,减少了企业根据论文复现的难度。大多数中小型云服务厂商缺乏复现能力,因此无法快速实施高效的Deepseek模型部署。开源代码让这些厂商可以直接使用,而不需要重新实现论文中的方法,从而促进了Deepseek模型的广泛应用和生态建设。
2、边际上,对于过去技术实力较强的大模型团队和AI infra团队来说,可能存在一定的被平权。之前,Deepseek模型的开源虽然有利于中小团队,但对于具备复现能力的团队来说,他们原本可以利用自己强大的AI infra能力,以较低成本部署类似Deepseek的模型,进而盈利。这个过程中,这些团队通过较低的部署成本获得了市场竞争优势,因为他们能够提供低成本的服务。
然而,随着Deepseek开源,技术平权的趋势逐渐显现。Deepseek的开源将技术能力和AI infra能力拉平,意味着即使这些技术强的团队过去通过较低的成本和高效的技术实现盈利,也可能面临竞争力下降。由于Deepseek开源了相关的技术,这些团队之前投入的资源和开发的技术价值会大幅缩水。以前,依靠技术优势(如低成本的部署方案)获得的竞争力被削弱,其他厂商(即便技术不如这些大团队)也能通过直接部署Deepseek模型提供服务,而不需要具备强大技术能力。
这种变化可能导致一些原本具有技术优势的团队,面临市场份额被瓜分,特别是那些拥有较强客户关系的小型厂商,可能会借此机会直接部署Deepseek模型来提供服务,从而威胁到技术能力较强的大公司或团队的市场份额。总的来说,这对技术强的团队来说是一个利空因素。
3、长期来看,Deepseek的开源有利于形成基于Deepseek的技术路线,并推动开源生态的发展。相较于闭源社区,开源社区的技术进展相对较慢,尤其是在中国的技术社区,整体上落后于美国技术社区。随着Deepseek的开源,尤其是充分开源,这将促进中国乃至全球开源生态的长足发展。基于Deepseek的技术路线将得到进一步优化,开发者可以在Deepseek的基础上继续进行创新。
过去,很多资源集中在AI infra和AI大模型训练的研发上,但随着Deepseek的开源,开发者的精力可以转向其他AI应用的创新。大家可能会预期,Deepseek的R2版本也会开源,R2可能包含一些新的加速算法、降低成本的策略和工具,这些都可能进一步开源。因此,开发者是否继续投入大量资源进行AI infra的研发将受到影响。如果开发者继续在基础架构研发上投入,随着Deepseek的逐步开源,这些投入的技术价值可能会被稀释或拉平。
因此,Deepseek的开源可能促使更多开发者在基于Deepseek的技术路线和开源生态上进行贡献,或专注于应用创新。这样的发展有助于技术路线的持续进步,避免偏离其他技术路线(如Dense模型的训练)。对于Deepseek而言,充分开源有利于整个社区在Deepseek技术的基础上进一步发展,推动技术创新,使得Deepseek模型能够继续在全球范围内进步和创新。
4、对于英伟达和国产AI芯片的影响分析:
目前来看,Deepseek开源的发布对英伟达的H系列显卡非常有利,因为H系列显卡能够直接利用这些开源成果,充分发掘其潜力。例如,H800显卡的性能已经接近H100显卡,因此H800、H20等显卡都将显著受益于Deepseek开源的发布。并且,有预期认为,Deepseek可能还会基于其他低配显卡(包括中国市场上能购买到的英伟达显卡)进行优化,因为Deepseek具备这方面的优化能力。如果Deepseek针对这些显卡进行优化,相关的开源成果也会公开,进一步利好英伟达低端显卡的销售。
另一方面,Deepseek的AI infra改进也是美国对中国禁售高端英伟达显卡的产物。由于高端显卡无法进口,Deepseek只能集中在低端显卡上进行优化。这也反映出英伟达CUDA生态的强大影响力。虽然有传闻称Deepseek对PTX做了底层优化,绕开了CUDA,但实际上PTX仍然在CUDA的框架下运作,Deepseek依然依赖于CUDA的一些上层库。因此,无论是否做了底层优化,使用英伟达显卡的用户仍然无法绕开CUDA。
如果美国的禁令导致显卡进口成本上升,这将为国产AI芯片提供一定的发展机会。然而,如果禁令放松,英伟达的CUDA生态依然是难以撼动的。当前,Deepseek的开源使得英伟达低端显卡的潜力得到了充分释放,可能会促使美国进一步加大对低端显卡的禁令力度。过去,低端显卡被认为性能较弱,但Deepseek的优化让低端显卡能接近高端显卡的水平,这可能导致美国对低端显卡的禁令更为严格,进而让国内更难获得这些显卡,从而推动国产AI芯片的发展。
国产AI芯片的未来发展,实际上与美国对英伟达显卡的禁令密切相关。如果禁令放松,国内能够获得低端显卡,即使是低端显卡,英伟达的显卡仍然是更好的选择,因为CUDA生态成熟且易用,能够显著减少企业在训练和推理模型时的人工成本。而Deepseek的研究人员对CUDA的了解也较为深入,因此基于CUDA的技术生态依然是主流。相对而言,其他芯片生态的相关人才较少,因此英伟达的技术生态依旧具备强大的护城河。
Q&A:
Q1: 本次开源周分享的一系列开源项目大多数仅支持H卡。针对A卡或国内的国产芯片,是否可以借鉴这一思路?如果项目仅支持H卡,对于原本在其他卡上进行训练和推理的大型企业来说,挑战是否会较大?
A1: 这个问题涉及到这些开源项目对开源社区及整个行业的直接与间接影响。我们可以从一个侧面理解,这些项目对行业的影响并不是非常大。真正能够借鉴Deepseek开源周项目思路的团队并不多,尤其是将这一思想应用于A卡或国产芯片的优化。这有一定参考价值,但如果量化影响的话,借鉴的效果可能比较有限。假设直接可用的影响为100分,那么借鉴的影响可能只有20分左右。
真正将这些思想成功复现到A卡或国产芯片上的难度很高。A卡的迁移相对较容易,但要将这些思路迁移到国产芯片上,则难度非常大。例如,Deepseek之前的论文已经详细说明了如何高效部署R1,专业的大模型团队和AI infra团队,特别是AI infra团队,已经能够基于论文复现出成果。但实际上,只有少数几家团队能够成功复现这些内容。而且这仅仅是基于论文的复现,想将这些思路迁移到另一种显卡上,尤其是完全脱离CUDA生态的国产AI芯片上,难度更大。
想要借鉴Deepseek的技术应用到A卡或国产芯片上,尤其是迁移到国产芯片的难度仍然很高,尽管A卡的难度相对较小。然而,实际上,更好的选择可能是等待Deepseek团队在A卡上的优化成果。毕竟,如果投入大量资源去迁移Deepseek的工作到A卡,可能随着Deepseek在未来版本(如R2)推出A卡优化,并开源出来,之前的技术投资可能会被“平权”,变得价值较低。
Deepseek本次选择完全开源代码,并且提供了非常易用的代码标准和教程,考虑到整个开源社区和行业的情况。实际上,能够真正具备这样的技术能力并进行复现的团队非常少。因此,Deepseek将代码和教程整理得非常完善,方便更多的小型云服务厂商能够直接在H卡上使用。这对H卡来说是一个非常大的利好。
但是,对于A卡和国产芯片,要真正借鉴这一波利好,还是存在一定难度。具体来说,难度可以参考前述量化的水平。
Q2: Deepseek开源周的项目在Deepseek模型中是否属于核心项目,是否是推动Deepseek在模型能力提升和成本下降中的关键要素?后续,Deepseek在哪些方面可能继续保持领先?
A2: 从Deepseek开源的角度来看,我们可以从训练和推理两个方面进行分析。
1. 推理方面:Deepseek的推理部分几乎已经完全开源。对于其他公司,尤其是技术能力较弱的公司,只要能够写代码并调用接口,就能部署并使用这套代码。推理的API已经非常接近Deepseek的水平,且非常易用。小型厂商能够以低成本复现推理服务。这一开源的举措,Deepseek的团队选择不在推理上盈利,而是专注于模型的优化。因此,Deepseek将推理部分几乎“喂饭”级别地开源,进一步扩大了使用规模和影响力,也让其他厂商能够从中受益。这部分已经非常接近完全开源,尤其对于小体量厂商来说是一个重要的利好。
2. 训练方面:Deepseek在训练方面的开源程度接近完全,主要集中在资源优化、加速和节省方面。但训练细节并未完全披露,特别是关于训练数据的内容几乎没有公开。如何获取、构建和设计训练数据,Deepseek并未透露。这一点构成了Deepseek的训练壁垒。Deepseek对于模型蒸馏和在特定数据上进行微调的介绍比较充分,这部分帮助企业进行私有化部署。然而,Deepseek在预训练和后训练的数据方面没有提供太多细节,因此对于想要完全复现Deepseek模型的团队来说,数据仍是一个关键难点。
3. 模型蒸馏与微调:Deepseek在模型蒸馏方面提供了很多内容,详细介绍了如何在自己的数据上进行蒸馏或微调。这表明Deepseek更倾向于让行业在其模型架构上进行私有化部署,通过蒸馏和微调来适应特定的需求。但如果没有合适的训练数据,团队就无法完全复现Deepseek的模型,数据是其中最关键的限制因素。
4. 未来挑战与优势:对于拥有较好训练数据的团队,基于现有的开源技术,他们能够低成本地训练类似于Deepseek的模型。因此,团队如果有足够好的大规模数据,能够进行有效的预训练,训练出Deepseek级别的模型并不困难。但对于缺乏足够训练数据的小团队来说,数据将成为唯一的门槛。因此,在训练领域,尽管Deepseek开源了许多技术以压缩和加速成本,但数据依然是其最大的挑战。
Deepseek在推理部分已经接近完全开源,而在训练方面,数据仍是最大的壁垒。对于有足够训练数据的团队来说,复现Deepseek模型已经变得相对容易,而没有这些数据的团队则会面临很大的困难。后续,Deepseek可能会继续在推理优化和模型微调方面保持领先,但在训练领域,数据的获取和构建仍然是其持续领先的关键因素。
Q3: 后续的Deepseek模型,比如R2或其他后续模型,在AI infra方面,您认为还有提升空间吗?还是说未来主要会集中在强化学习方面?
A3: 目前的AI Infra,实际上是建立在幻方量化团队之前的工作基础上。许多开源内容,尤其是降本、模型加固和资源优化等,都是建立在幻方量化团队已有的技术和优势之上。与其他开源项目或大模型团队的工作相比,这次的进步非常显著,尤其是在资源利用方面,优化做得极致。
不过,这次的开源工作可以看作是将幻方量化团队的“老本”贡献出来,进一步推向开源社区,提升了整个开源生态在AI Infra领域的水平。因此,虽然这一次的开源是跨越式的进步,为开源生态带来了巨大的提升,但后续的R2模型在AI Infra上的优化可能不会有这么明显的飞跃。
幻方量化团队在AI Infra方面的能力仍然很强,后续仍会在此基础上做进一步优化,可能会包括对不同硬件的适配,比如使用A卡或者国产卡进行优化,尽管国产卡的性能可能略逊一筹,但在这些卡上进行训练优化的工作仍然会继续,并且会继续开源出来。然而,未来的优化更多可能是线性的提升,而不是像这次那样跨越式的进步,因为目前已经开源的技术基础,已经涵盖了大部分的“老本”。
Q4: Deepseek现在C端用户数增长比较快,体量也比较大,当前的算力足够吗?未来推理方面对算力的需求可能会有多大?
A4: 这是Deepseek团队现在面临的一个大问题。随着春节期间的热度爆发,Deepseek的流量经历了急剧增长,导致推理需求大幅增加,流量大量涌入到APP、网页和API等渠道。当前,Deepseek的算力已经被大部分充分利用,推理需求远远超过其现有算力。虽然Deepseek在扩容方面已有计划,但短期内无法大规模扩展算力。
Deepseek的团队并不打算把过多的资源和精力投入到处理这一暴增的推理需求上。实际上,这次开源的一个关键目的,就是希望行业内的其他团队能够接手这部分用户需求,而不是由Deepseek单独消化。通过开源,Deepseek希望能让更多的小型云服务厂商——那些拥有算力的厂商——来分担推理需求,从而让Deepseek可以将更多资源和精力集中在模型研发,特别是R2模型的提升上。
这是Deepseek团队的战略选择,尤其是Deepseek的创始人和领导团队也意识到他们的精力是有限的。团队决定不把资源投入到推理需求的消化上,而是通过开源让更多的厂商参与进来,利用这些厂商的资源来承接推理需求,同时把技术分享出去,鼓励其他公司一起赚这部分钱。
目前,Deepseek的推理需求已经远远超出其现有算力承载能力,流量甚至已经超过了豆包、Kimi等其他公司。未来,这些推理需求很可能会被分摊到其他云厂商,Deepseek则会将更多精力放在技术和模型的研发上。
现开放投研情报群体验名额,更多投研情报服务,请往下看
独角兽投研情报会员服务
服务概述
现在的A骨市场,风格切换极快,不论是做赛道成长、风口波段、价值投资、龙头打板、技术短线都处于短暂有效,大多数时间亏损的情况,只有一点持续有价值,那就是快人一步的信息,这种信息不会是财联社的新闻,不是知识星球的调研纪要、更不会是公社的吹票逻辑。
服务主旨
提供各种快人一步的投研信息,让你明明白白知道盘中异动。
情报来源
独角兽智库投研情报团队已经根植在大A各个生态阶层:
1:公募核心圈,提前获取公募看好的大方向和主攻领域。
2:券商分析师圈,深入各大券商核心客户群,提前获取券商主推逻辑。
3:游资核心圈,在游资大佬的小圈子有一席之地,提前获取大资金动向。
4:产业链圈,各个新兴产业技术核心圈子,提前挖掘技术变革推动的A股炒作逻辑。
服务内容
1、大资金抱团动向
2、集合竞价龙头早知道
3、先手小作文
4、券商主推方向及逻辑
5、市场的机会和风向提示
6、个骨和行业避雷
服务方式:
微信群--只有微信群的消息才可以做到第一时间的信息传递。
现开放体验名额(非免费,白嫖勿扰)
加入体验方式(如果您关注短线交易)
请加微信:itouzi8888,备注:体验+姓名+公司+职位
如果您关注基本面,做波段或者价投
请加微信:itouzi5,备注:体验+姓名+公司+职位
群内其他历史记录如下,可自行验证其情报的价值,有投研情报群历史聊天记录的截图,在盘后都会截图并且发在当天文章内,请查看历史文章验证(11月份精选情报)
防止失联,关注备用号