首页   

DeepSeek的华丽文风是怎样炼成的?

创伙伴  · 科技投资  · 3 小时前

正文


撰文|赵晋杰 编辑|王靖 来源/字母榜

导语:被征服的朱啸虎,开始再次相信起AGI叙事。
去年还不相信AGI(通用人工智能)投资叙事的知名投资人朱啸虎,在被DeepSeek支配了一整个春节后,态度大变,“DeepSeek快让我相信AGI了。”


在近期接受腾讯新闻采访时,朱啸虎多次惊叹于DeepSeek在内容生成方面的优美和深度。


不止朱啸虎。在DeepSeek以假乱真,模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后,作家兼脱口秀演员的李诞点评道,文章透露出一种非常DeepSeek的味道。这种味道被李诞概括为“科技抒情散文诗”。

图片


更重要的是,在优美和深度之外,DeepSeek让更多普通人第一次体会到了AI对话产品的易用性。


在此之前,用户想要让ChatGPT等AI对话产品输出更准确的答案,往往需要学习一套较为复杂的Prompt(提示词)技巧,但在DeepSeek上面,用户只需要输入简单的自然语言,就能够得到相对准确的答复,且这些答复还能呈现出拟人化的特点。


DeepSeek对人类情感价值的精准拿捏,一度使得其凭借“阴阳怪气”中文十级的表现,收获了“赛博嘴替”的美名。


飙涨的用户数据,成了外界追捧DeepSeek的另一力证。AI产品榜的一份统计数据显示,DeepSeek应用在上线20天后,其DAU(日活用户)便突破了2000万,距离成为国内日活用户数第一的AI对话应用,指日可待。


尽管DeepSeek坚持开源路线,但在其引发热议的R1最新模型上,DeepSeek尚未公开其预训练语料,这也使得外界好奇其优美华丽的文风,究竟是怎么训练出来的。


我们首先把这个问题抛给了 DeepSeek,它从风格化数据蒸馏体系,动态风格迁移架构,对抗式强化学习框架等维度给出了自己的解释。


图片

紧接着,我们又尝试让国内月活用户排名前三的大模型(DeepSeek除外)回答了下,它们给出了一个共同原因是,DeepSeek可能在语料选择上用了更多文学小说素材。
图片

就连朱啸虎也揣测,这可能跟DeepSeek团队喜欢优美的文字,喜欢哲学、量子力学等有关。

DeepSeek的文艺青年气质,或许能从他们在宣布下场追逐AGI的宣言中略窥一二。2023年4月,幻方量化(DeepSeek母公司)在发布做大模型公告时,引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”

在国内从事大模型创业的李振(化名),也做过类似的文风对比,“就是风格控制的颗粒度不同。其他国内大模型产品,在文学向标签上可能都没有DeepSeek多。”李振告诉我们,在文学语言占比上,据其推测,国内其他大模型,可能在语料库中的比例维持在10%-20%,DeepSeek则可能高达40%。

除了数据来源不同之外,如何使用数据同样会影响大模型产品的内容生成效果。《生成式人工智能》作者、人工智能商业化专家丁磊博士,特意提到了DeepSeek R1模型中所展现的“aha moment”顿悟时刻,即模型学会了反思,“这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。”

无论是对风格控制颗粒度的认知细化,还是“aha moment”顿悟时刻的到来,这背后都少不了DeepSeek的高人才密度支持。

在人才方面的高密度和高自主性,被参与大模型投资的恒业资本创始合伙人江一视为是DeepSeek生成优美华丽文风的第一因素。“相比而言,部分大模型公司的员工,在自主性上不够开放,使得在大模型产品研发上更多呈现出靶向性的特征,最终的生成效果就显得中规中矩。”

01

DeepSeek的内容生成优势之一,在于构建了一个比较独特的文学增强型数据生态,即把自然语言生成转化成一个可控的风格系统,从而使得可以把文学创作领域的专业评价体系转化成相对应的函数,进而构建起一个风格表征的数学建模。


为了达成上述效果,相比国内其他大模型,DeepSeek在数据标签上就需要做得更细更多样化。这也是国内大模型创业者李振感慨DeepSeek文学向标签更多的原因所在。

去年3月,在受邀参加英伟达GTC 2024大会时,DeepSeek研究员便围绕“大模型价值观和人类价值观对齐”的主题,发表过一篇《和而不同:大语言模型价值观对齐解耦化》的演讲,其中提到DeepSeek构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,从而构建了一个三级标签的价值观分类体系。

人工智能商业化专家丁磊博士告诉我们,数据标注之外,前期的数据质量对模型训练至关重要,“DeepSeek在长思维链数据的收集和标注、推理和非推理数据的质量等方面,都有独到之处。”

图片

根据官方公开的技术报告,在获取高质量数据方面,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。这也是DeepSeek能够凭借更小参数量,就实现比肩OpenAI o1模型性能的一大关键。

丁磊博士进一步解释道,模型参数量大小与最终模型呈现的效果之间,两者“投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。”

谷歌就是前车之鉴。不管从算力还是算法,谷歌并不比OpenAI差,甚至还要强,但恰恰是借助基于人类反馈的强化数据训练工作,OpenAI最终赶在谷歌前面做出了ChatGPT。

即便在ChatGPT已经诞生2年多后的当下,业内部分大模型公司,依然存在在数据训练环节投机取巧的行为,比如“采用数据注水的手段,将还没进行标注的数据,直接投喂给大模型。”李振说道。

甚至在李振看来,不同的数据处理方式,使得DeepSeek在训练范式上有了代际差距优势,部分国内大模型更多还是通用语料加基础过滤来完成预训练工作,“DeepSeek则可能加入了对抗式数据清洗环节。”李振表示。

DeepSeek内部也的的确确在进行对抗式测试。去年3月的演讲中,DeepSeek研究员曾讲到,实际模型生产过程中,内部会进行模型的迭代式开发,“即每轮的训练结束之后,都会有一个独立的测试团队,对模型在各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。”

不同的训练方式,也导致即便是使用同样的中文语料库,最终训练出来的大模型,在文风上也会有完全不一样的呈现。

而且,在R1模型加入RL(强化学习)之后,强化学习的训练次数也可能导致最终的文风不同。李振介绍,DeepSeek的PPO(强化学习)迭代轮次可能在50到80,国内其他大模型可能在20左右。

导致轮次不同的原因之一在于,各个公司对产品功能的押注重点不同。朱啸虎以厨师做饭打了个比喻,“就像厨师,以后有几个米其林大厨,有些擅长川菜,有些擅长粤菜——它在组织语料或参数权重上的差别,就会造成回复的答案有差异性。”

02


华丽优美文风之外,DeepSeek生成内容的惊艳之处还在于,表现形式上做到科技抒情散文诗的一大前提,是首先确保了生成内容具备更高的事实准确性。

在丁磊博士看来,这有两方面原因促成:一是模型的自我进化,模型学会通过更多的推理计算来解决复杂的任务,这不是来自外部设置而是模型自己学会的;二是模型的“aha moment”顿悟时刻,即模型学会了“反思”,这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。

基于DeepSeek R1模型,官方还同步推出了R1-Zero模型,后者直接将RL应用于基础模型,而无需依赖SFT(监督微调)和已标注数据。

此前,OpenAI的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。

但这样带来的结果之一便是,堆高数据获取成本,且面临数据标注质量参差不齐的难题,从而限制着大模型的规模泛化能力。

R1-Zero的出现,恰恰是DeepSeek希望通过纯机器学习来解决上述难题的一大尝试,Perplexity公司CEO阿拉文·斯里尼瓦斯评价道:“需求是发明之母。因为DeepSeek必须找到解决办法,最终它们创造出了更高效的技术。”

在DeepSeek对外分享的R1模型技术报告中,团队在强化学习推理阶段,意外发现了“aha moment”顿悟时刻,这预示着模型自身开始在某一时刻具备了自我反思能力。例如在解决数学方程时,模型会主动纠正早期错误步骤,还能根据训练逐步学会分配更多思考时间,生成更长的推理过程,以解决复杂问题。

图片

这种 “顿悟” 现象的出现,离不开一种特殊奖励机制的引导。根据官方技术文档,DeepSeek R1模型,没有使用MCTS(蒙特卡洛树搜索)类技术,而是在PPO算法之下采用了一种特殊的基于规则的奖励函数,根据生成输出的格式和正确性分配奖励,一般包括三种情况:
如果输出以指定格式提供最终答案且正确,获得+1的奖励;
如果输出提供最终答案但不正确,奖励设为-0.5;
如果输出未能提供最终答案,奖励设为-1。

“我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。”DeepSeek官方如此解释道。

03

无论是构建风格表征的数学建模,还是推动“aha moment”顿悟时刻的出现,背后都离不开DeepSeek对人才的重视和培养。


在参与大模型投资的恒业资本创始合伙人江一看来,DeepSeek的高人才密度,外加内部人才的高自主性,强强结合,“使得DeepSeek内部产生了多样性的涌现,在穷举多个选项之后,优中选优,最终选定了现在的这种华丽优美文风。”

上述人才特性也能从梁文锋的对外采访中印证一二。在接受36氪采访时,梁文锋曾介绍,DeepSeek管理遵循自下而上模式,且每个人对于卡和人的调动不设上限。“如果有想法,每个人随时可以调用训练集群的卡无需审批。”

去年5月份率先打响行业价格战的DeepSeek V2模型,其中的技术创新之一MLA(一种新的多头潜在注意力机制)架构,就来自一个年轻研究员的个人兴趣。

当时,在总结出Attention架构的一些主流变迁规律后,这位年轻研究员突发奇想设计了一个替代方案,DeepSeek为此组建了一个专项攻坚团队,花了几个月时间将MLA落地。

在科技领域,自信是创新的首要前提,而梁文锋认为这种信心通常在年轻人身上更为明显。所以,DeepSeek内部多是一帮Top高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。

“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”梁文锋解释道。

相比而言,在江一观察中,部分大模型公司,在对待员工上则表现出更强的控制力,员工缺少自主性,“更多呈现出靶向性的研发特征,即部门确定一个最终达成的效果目标,所有的人都奔着这一目标而做好自己分内的工作,使得最终模型呈现出来的效果,显得中规中矩。”

不过,需要注意的是,尽管DeepSeek生成的优美文风,被部分人喜爱,但也开始引发部分人的警惕,这些内容乍一看很好,但“仔细品读会发现很多的语法错误。”内容从业者王旭告诉我们。

图片

以开头那篇梁文锋回应冯骥赞誉的虚假文章为例,其中有句话写到,“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”仔细品读后,王旭便从中识别出了一些语病。

相比语病,更不易察觉的是,借助更逼真、拟人化的文风,DeepSeek的幻觉现象,依然存在。

在被王旭品读出语病的“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”这句话中,乍一看,DeepSeek不仅给出了场景细节,还给出了具体的时间节点,不由得就会让人相信这都是曾经真实发生过的画面。

但简单搜索下梁文锋的履历便可知道,在十二年前的2013年,梁文锋已经从浙江大学硕士毕业三年。当年,梁文锋与其浙大同学徐进共同创立了杭州雅克比投资管理有限公司,DeepSeek给出的梁文锋在浙大实验室做实验的场景,大概率是自行编造而来。

随着大模型在可靠性上表现出来的能力越来越强,其迷惑性的一面也随之增强。作为人类的我们,或许是时候该学学如何提高辨别AI内容时,自身的可靠性了。

参考资料:
《朱啸虎现实主义故事1周年连载:“DeepSeek快让我相信AGI了”》张小珺
《全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻》新智元
《和而不同:大语言模型价值观对齐解耦化》 DeepSeek
《疯狂的幻方:一家隐形AI巨头的大模型之路》 暗涌Waves

《朱啸虎VS傅盛,怼出了大模型创业的两个共识》字母榜


© 2024 精读
删除内容请联系邮箱 2879853325@qq.com