本文介绍了关于DeepSeek模型的影响、创新策略、使用方式和未来趋势等内容。DeepSeek模型在科技界引起广泛关注,其影响力不仅体现在对手的反应、资本市场的影响,还体现在各行业对其的部署和融合。文章深入解析了DeepSeek模型的技术特点,如MOE架构策略、混合精度框架等,并探讨了其多种使用方式,如直接访问官网、使用Cherry Studio等工具进行本地部署等。此外,文章还分析了DeepSeek模型掀起的变革,包括小模型成为主流、使用合成数据进行训练等趋势。
DeepSeek模型引起广泛关注,对手感到惶恐,资本市场出现大幅波动,国外机构纷纷部署或集成DeepSeek的相关模型。
DeepSeek采用创新策略,如引入MLA、使用DeepSeek-MoE架构策略、混合精度框架等,计算速度快,成本低,推理能力强。
DeepSeek有多种使用方式,可以直接访问官网,使用Cherry Studio+DeepSeek API进行本地部署,或者使用Cherry Studio+第三方云厂商DeepSeek API。此外,还可以结合知识库和Cursor等工具进行复杂应用。
DeepSeek的推出掀起了新的变革,未来小模型将成为主流,使用合成数据进行训练也将成为主流。此外,AI模型将自我迭代,通过自我出题、自我检查和合成数据等方式不断提升能力。
内容来源:量子教育,企业人才培养优质内容及创新解决方案服务商。分享嘉宾:陈旸,阿里云MVP,清华大学计算机博士。
高级笔记达人 | 李云 责编 | 柒 排版 | 拾零
第 8840篇深度好文:7662字 | 20 分钟阅读
笔记君说:
春节前夕,DeepSeek-R1模型公布开源,下载量迅速登上了免费榜榜首。随后,引起了美国资本市场的大波动,算力巨头英伟达出现了股价暴跌17%的罕见跌幅……
开源后的DeepSeek到底对资本、科技产生了何种影响?是什么让其具有这么大的能量?我们如何拥抱DeepSeek带来的新AI时代?继DeepSeek之后,AI将有什么新的趋势?
这篇文章,将由清华大学计算机博士、阿里云MVP(人工智能领域最有价值专家)陈旸为我们一一解读上述问题。
1.对手惶恐,资本青睐
2025年1月20日,DeepSeek-R1模型正式公布;1月26日在中国区、美国区苹果App Store中的免费榜上同时冲到了第一名。
随后,美国资本市场出现大幅波动,标准普尔500指数在10天内跌幅接近10%。英伟达股票在1月27日当天暴跌了17%,美股主要科技公司(英伟达、微软、Meta、亚马逊等)市值共计蒸发上万亿美元。
在DeepSeek-R1出现前,算力是大模型训练的关键因素,美国限制中国使用英伟达的显卡,因此大家普遍会认为美国在AI大模型的领先优势是“断层式”的,这也是美国对华科技限制采取“小院高墙”战略的底层逻辑。
DeepSeek用少量的显卡训练出了与其媲美的模型,相当于打破了美国对华在人工智能领域的战略限制。
就连OpenAI的CEO山姆奥特曼也重新思考了OpenAI的开源战略,迅速推出了o3-mini模型,在使用中开放了思考推理过程。
在这之前,OpenAI并不是完全开源的,我们只能使用o1模型,现在我们也可以使用其o3模型进行更深入的思考。
通过OpenAI o3 mini与DeepSeek R1的使用对比,可以发现DeepSeek-R1的思考时间更长,思考逻辑更完整,推理结果更好。
同时,DeepSeek会将推理过程完整地展现出来,而OpenAI以前不会展示思考的过程,而思考的过程其实非常有价值的。
今年1月,美国宣布“星际之门”计划,软银向OpenAI投资400亿美元,用于OpenAI对星际之门的承诺,投后估值达3000亿美元;而具有对标OpenAI能力的DeepSeek,同样受到国内近百家资本的青睐,对其表达了投资意向,可以预见DeepSeek的估值将会上到一个新的高度。
2.DeepSeek开源,行业争相部署
在DeepSeek宣布开源R1之后,各个行业都开始集成或部署DeepSeek的相关模型。
国内的华为云、百度智能云、阿里云、腾讯云、京东云、火山引擎以及三大运营商等云平台都相继部署了DeepSeek的R1/V3等模型。
国外的亚马逊、微软、英伟达、AMD等平台也快速地将DeepSeek R1/V3模型部署或集成到相关的产品和服务上。
在产业端,吉利、岚图、东风、广汽、智己、长城、宝骏、零跑等车企也宣布与DeepSeek进行融合,未来智驾上也可以体验到与DeepSeek的交互。
金融领域,国泰君安、国金证券、兴业证券、广发证券等证券机构进行了本地化部署和调试,应用于行业研究、市场研判、风险管理、信息检索、文档处理等多种场景。
当然,部署与开发完成还需一定的测试过程,但也体现出各个行业不甘落后的状态,也说明与先进的大模型融合使用将是大势所趋。
1.DeepSeek的完全版与蒸馏版
DeepSeek完全版的尺寸是671B,由于采用创新的MOE架构,在推理过程中激活少部分参数,因此推理速度更快,所需训练资源更小。
DeepSeek蒸馏版有Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Uama-3.1-8B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.3-70B-Instruct等多个尺寸。它选了两个开源模型进行训练,国内是Qwen2.5,国外则选用了Llama,蒸馏模型更小更快,但能力相对弱一些。
对于性能要求不太高、GPU资源有限的企业,蒸馏版是一个更优选择。因为完全版需要的显存是496GB,而R1:1.5B只需要2G显存、R1:7B也只需要8G显存,最高的R1:70B蒸馏版也只需要128G显存,大幅降低了私有化部署的资源要求。
2.蒸馏技术路线,让DeepSeek R1性能大幅提升
在R1模型之前,DeepSeek推出V3通用模型,在推理速度上相较历史模型有了大幅提升。一度在大模型主流榜单中,位于开源模型榜首,与世界最先进的闭源模型也不分伯仲。
而V3模型最大的特点是训练成本极低,需要的显卡数量和训练时间较于OpenAI只是一个零头。
2024年12月,V3模型正式推出,但当时并没有太大波澜。
而以V3模型为基础,通过新的奖励机制GRPO(group relative policy optimization),并使用规则类验证机制自动对输出进行打分,在一个多月时间内训练出了DeepSeek-R1模型,性能堪比GPT-o1模型,使R1迅速火出了圈。而R1模型与V3模型相比,其性能也有了大幅提升。
R1模型遵循MIT License(一种非常宽松的开源许可协议,允许用户自由地使用、修改、分发和商业化软件或模型。),允许用户通过蒸馏技术借助R1训练其他模型。
相比之下,Meta Llama的License相对严格,虽然LLaMA3是开源的,但许可协议限制了商业用途和对模型的修改,比如新的模型如果使用LLaMA,需要名称上带有LLaMA标识。
DeepSeek-R1上线API,对用户开放思维链输出,因此一经发布,多家企业就宣布融合DeepSeek-R1的各个版本,因为是完全开源的模型,在版权上就减少了不少风险。
在开源DeepSeek-R1-Zero和DeepSeek-R1两个660B模型的同时,通过DeepSeek-R1的输出,蒸馏了6个小模型,其中32B和70B模型在多项能力上实现了对标0penAlo1-mini的效果.
3.DeepSeek的创新策略及产生的效果
① 创新策略
第一,引入MLA(Multi-Head Latent Attention)。
在“All you need is attention”的背景下,传统的多头注意力(MHA,Multi-Head Attention)的键值(KV)缓存机制事实上对计算效率形成了较大阻碍。缩小KV缓存(KV Cache)大小,并提高性能,在之前的模型架构中并未得到很好的解决。
DeepSeek引入了MLA,一种通过低秩键值联合压缩的注意力机制,在显著减小KV缓存的同时提高计算效率。低秩近似是快速矩阵计算的常用方法,在MLA之前很少用于大模型计算。
从大模型架构的演进情况来看,Prefill和KV Cache容量瓶颈的问题正一步步被新的模型架构攻克,巨大的KV Cache正逐渐成为历史(实际上在2024年6月发布的DeepSeek-V2就已经很好的降低了KV Cache的大小)。
第二,创新使用了DeepSeek-MoE架构策略。
V3使用了61个MoE(Mix of Expert混合专家)block,虽然总参数量很大,但每次训练或推理时只激活了很少链路,训练成本大大降低,推理速度显著提高。
第三,DeepSeek采用混合精度框架。
在不同的区块里使用不同的精度来存储数据。我们知道精度越高,内存占用越多,运算复杂度越大。
DeepSeek在一些不需要很高精度的模块,使用很低的精度FP8储存数据,极大的降低了训练计算量。
② 创新策略带来的效果
第一,计算速度快,成本低。
架构设计方面:DeepSeek MoE架构在推理时仅激活部分专家,避免了激活所有参数带来的计算资源浪费;MLA架构通过降秩KV矩阵,减少了显存消耗。
训练策略方面:在训练过程中采用多token预测(MTP)目标,即在每个位置上预测多个未来token,增加了训练信号的密度,提高了数据效率。
在训练中,对于占据大量计算量的通用矩阵乘法(GEMM)操作,采用FP8精度执行;同时,通过细粒度量化策略和高精度累积过程,解决了低精度训练中出现的量化误差问题。
第二,推理能力强大。
强化学习驱动:DeepSeek-R1通过大规模强化学习技术显著提升了推理能力。在数学、代码和自然语言推理等任务上表现出色,性能与OpenAl的o1正式版相当。
长链推理(CoT)技术:DeepSeek-R1采用长链推理技术,其思维链长度可达数万字,能够逐步分解复杂问题,通过多步骤的逻辑推理来解决问题。
1.DeepSeek的多种使用方式及其表现
第一种,直接访问DeepSeek官网。虽然免费,但由于访问量过大,表现极不稳定。
第二种,在GitHub上下载cherry Studio(或者一些其它工具),使用Cherry Studio+DeepSeek API做本地部署。但官方DeepSeek API也存在不稳定的情况。
第三种,使用Cherry Studio+第三方云厂商DeepSeek API做本地部署。使用第三方云厂商的DeepSeekAPI稳定很多,相比官方API价格也便宜。
Cherry部署之后,除了DeepSeek,还可以使用OpenAI、月之暗面、智谱清言等API。
假设我们来解一道高考数学题:设集合A中的元素皆为无重复数字的三位正整数,且元素中任意两者之积皆为偶数,求集合中元素个数的最大值是多少?
这是一个非常复杂、难度较大的问题,如果采用通义千问等通用大模型,大概率得不出正确答案,而DeepSeek通过分步骤的长链深度思考,一步步给出了正确答案。
2.简单应用:DeepSeek+知识库
以构建投资研究框架为例,我们来展示用DeepSeek+知识库的使用。
第一步,配置embedding模型。嵌入模型,把知识库进行向量化,并进行快速检索;选择嵌入模型(可以使用硅基流动),在Cherry Studio设置中,设置对应的API Key。
第二步,整理知识库。在Cherry studio的知识库中,配置投研报告知识库,上传相关投研报告(处理知识库主要用到文字,所以知识库支持PDF、PPT、Excel、word等多种文本文件)。完成后,你就在本地有了知识库。
第三步,在智能对话助手中,选择对应的知识库。
最后一步,针对知识库进行提问。可以看到,DeepSeek会进行长链思考并展现思考过程。
需要注意,虽然云厂商不会主动收集你的数据,但并不能100%保证数据安全,对于企业的敏感数据(如财务、营销数据),建议进行本地私有化部署。
3.复杂应用:DeepSeek+Cursor
知识库并不能完全展现DeepSeek的深度思考能力,借助于其它工具(如Cursor)可以完成更复杂的任务,如物理世界的小球碰撞实验。
首先,我们在Cursor的【File->Preferences->Cursor Settings】中设置DeepSeek-r1和DeepSeek-v3模型。
然后,在openAI API Key中进行设置(这里采用openAI的协议),可以使用自定义的模型。
设置好DeepSeek-r1和DeepSeek-v3模型之后,接下来就可以在Cursor中选择该模型进行编程。
我们看一个实际的例子:一个红色的小球在三角区域内运动,碰到边界就反弹,编写一个HTML网页。
Cursor会新建一个工程,动态展示编程结构。而DeepSeek在长链思考之后,编写出HTML代码,但代码运行可能不符合要求,需要进一步调整,调整的过程我们也只需发出语言(文字对话)指令。
调整过程如下:
基于之前的思考,帮我完善HTML。(动作:DeepSeek思考并完善HTML代码。效果:HTML样式有了调整,但是小球还是会飞出三角区域,需要进一步调整。)
小球弹了之后,弹出去了啊,帮我检查代码……
考虑小球的重力,以及三角区域的支撑力,小球的弹力进行完善……
每次运行,小球可以从随机的任意方向抛出……
小球的弹力大一些……
最后到地面都垂直弹跳了,不是应该还会滚动么,就是有水平的速度……
下面增加一个刷新按钮,可以重新执行这个HTML……
中文显示是乱码,另外考虑到手机显示,页面需要做自适应……
经过多次调校,DeepSeek终于生成了符合我们要求的HTML代码,并在Cursor工程中进行效果演示。
通过上面的演示,我们发现,即使不懂代码,也可以通过DeepSeek来完成机器编程,获得期望的效果。
4.这一次,AI真的“智能”了
从AlphaGo与围棋世界冠军李世石大战开始,人工智能逐渐介入我们的生活。机器第一次能进行自主思考,完成简单(其实战胜世界冠军这个任务并不简单)任务。
在发展中的人工智能也一度被我们吐槽为“人工智障”,但从OpenAI开始,人工智能逐渐会处理一些复杂任务了,而DeepSeek展现出了超越普通人的长思维链路,我们不得不感叹:AI真的“智能”了。
可见,在学习过程中,对于复杂任务的处理有一个逐渐成熟的过程,一切都可以从最简单的开始。当你具备了一些常见的思考、自我更新、自我迭代的能力,就可以完成一些更有价值的作品。
比如,如果你是一名投资分析师,会用哪种AI助手来辅助完成投研报告呢?如果用通用大模型(相当于文科生)写报告,可能也会完成任务,但显然缺乏严谨的逻辑推理过程
。
因此可能带来市场的盲目跟投或者疯狂踩踏,而DeepSeek的R1模型的严谨推理过程,可以胜任你的助手了。
1.李飞飞50美金复刻R1模型
在R1及其蒸馏模型推出后,李飞飞团队用不到50美金的云计算费用,成功训练出了一个名为s1的推理模型。该模型在数学和编码能力中的表现,与0penAI的o1和DeepSeek-R1等尖端推理模型不相上下。
s1模型的训练只用了1000个样本数据,具体过程是:使用Gemini对这1000个样本完善推理过程,然后对Qwen模型进行监督微调。
消息出来,在网络上一度刷屏。但我们也要了解这个模型成功的背景:
其一,s1模型是站在巨人的肩膀上,在阿里Qwen和谷歌Gemini大模型进一步训练得到的;
其二,成本之所以低,是因为只使用了1000个样本(对于企业来说,1000个样本可能足够了,但对于训练完整的大模型是不可能的),通过26分钟花费50美金,达到了一个比较理想的推理效果(与o1相差不大)。
也就是说,在每个企业中,未来大家都有机会用1000个样本经过精细训练就可能达到类似效果。
如果稍微展开,可以发现s1模型背后有自己的独特方法论:
首先,数据集的构建有三个标准(难度、多样性和质量),从这三个标准出发,挑选了1000个问题及对应的推理路径。
S1的数据集包含了不同领域,如数学竞赛、物理竞赛,并且新增了两个原创数据集;s1-prob和s1-teasers,分别涵盖了概率问题和定量交易面试中的难题。
其次,采用了预算强制技术。这是一种控制测试时计算的技术,通过强制终止或延长模型的思考过程(通过添加“wait”字符串),使模型有机会重新检查答案,从而可能纠正错误的推理步骤。
在预算强制技术下,有三个强制策略。
其一,设定思考时间限制:当模型开始处理一个问题时,首先为其设定了一个最大思考时间(以token数量衡量)。如果模型在这个时间内完成了思考并准备给出答案,则按照正常流程进行。
其二,强制结束思考过程:如果模型生成的思考token超过了预设的最大值,系统会强行终止模型的思考过程。这通常是通过添加一个特殊的end-of-thinking token delimiter实现的,促使模型停止进一步的推理,并转向生成最终答案。
其三,鼓励更深入的探索:如果希望模型花更多的时间来考虑一个问题,可以抑制end-of-thinking token delimiter的生成,并在当前的推理路径后面追加“wait”字符串=>为了让模型有机会重新评估其先前的推理步骤,可能会纠正一些快速但不准确的回答。
2.继DeepSeek后的AI趋势
趋势一:小模型将成为主流(大模型蒸馏)。
通过蒸馏技术将大型模型的推理能力成功迁移到小型模型中,显著提升了小型模型的性能(DeepSeek-R1-Distil-Qwen-7B在AIME 2024竞赛中击败了32B模型)。
趋势二:使用合成数据进行训练成为主流。
虽然蒸馏数据是公开的秘密,但很多表现不是蒸馏能解释的。比如v3的中文能力,很多用词和表达方式非常接地气,可能是用了数据合成方法做的预训练。
趋势三:AI模型将自我迭代(强化学习新范式)。
让模型自己出题自己做,自己检查。第一步:模型自己出题(比如100万道);第二步,模型自己检查对错;第三步,筛选验证对的内容,将结果与思维链合成新的数据。
比如在100万道题目中,模型检查后发现有1万道能验证是对的,那么解出这1万道题的思维链就成了新的训练数据。通过不断迭代,探索出之前人类没有探索到的地方(类似AlphaGo-Zero战胜AlphaGo)。
主办方简介——
量子教育,核心管理团队来自浙江大学,秉承「以知识推动创新·让客户更具价值」的使命,链接全球优质教育培训资源,促进知识的创新、传播与共享。
自2017年成立以来,已成功打造知识IP3000+,在线课程累计曝光150亿+,全网粉丝2600万+,为690+家大型国央企、金融机构及上市公司等500强企业提供优质内容资源、创新解决方案等人才培养创新服务。
好文阅读推荐:
分享、点赞、在看,3连3连!