首页   

DeepSeek低调宣称小更新,结果用2折价格达到R1水平

白鲸出海  · 科技公司  · 6 天前

正文

3 月 24 日,DeepSeek 无预警发布 DeepSeek-V3-0324 模型,此次更新虽被官方低调地称为“小版本迭代”,但实测表现远超预期。


该模型尤其在代码生成、前端开发等方面显著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引发全球 AI 社区热议。

在大模型竞技场测试 KCORES 中,DeepSeek-V3-0324 代码能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet(322.3 分),接近 Claude 3.7 Sonnet 的思维链版本(334.8分)。

图片

在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多语言基准测试中得分为 55%,比 V3 有显著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,仅次于 Claude Sonnet 3.7。
图片

测试数据还表明,在表现良好的模型中,DeepSeek-V3-0324 花费是最低的,比 R1 还低很多,只需大约 1/5,拥有高到令人发指的性价比。

另外,Claude Sonnet 3.7 Thinking 的花费是 DeepSeek-V3-0324 的 33 倍, o1 是 DeepSeek-V3-0324 的 167 倍

图片
图片

目前在 DeepSeek 官网,只需要关闭“深度思考”选项即可使用新模型。

Hugging Face 上也提供了开源下载,下载地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
图片

DeepSeek-V3-0324 包含 685B 参数,较前代 V3 小幅增加,采用 MoE(专家混合)架构,激活参数 370 亿。网友实测 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度运行,磁盘占用仅352GB。新模型采用与 DeepSeek-R1 相同的MIT许可,允许自由修改、商用及模型蒸馏,比上一版 V3 更开放。

从测评结果来看,DeepSeek-V3-0324 前端开发表现突出,媲美顶级商业模型。

X 博主 Deepanshu Sharma 仅用简单提示词(“用 HTML/CSS/JS 制作现代化登录页面”),就能让新版 V3 一键生成 800+ 行代码,且无错误运行,效果媲美 Claude 3.7 Sonnet。

图片

图片

在经典弹跳小球测试中,DeepSeek V3-0324 不仅比 R1 表现更好,博主 Deepanshu Sharma 还认为它生成了最流畅的动作。

图片

图片

在测试中 o3-mini 最初表现看起来不错,但并没有正确遵循物理原理,尤其是在视频中间,球对重力没有做出正确的反应。

Deepanshu Sharma 评价 DeepSeek V3-0324“表现得像唯一排名第一的非推理模型”。

据 X 网友 karminski-牙医介绍,在升级版的 20 小球物理模拟测试中,DeepSeek V3-0324 相比 V3 也表现更优。

图片

图片

而新版 V3 与头部推理模型的比较情况如下:

图片

在火星任务测试中,DeepSeek-V3-0324 提升巨大,星球、图例渲染正确,发射和返回的窗口计算也有很大进步。

图片

结合 UI 设计和物理模拟,X 网友 Parul Pandey 还用 DeepSeek-V3-0324 生成了一个可交互物理模拟界面,通过 AnyChat 使用 DeepSeek-V3-0324 模拟水分子。

实际运行中,可以通过温度滑块提升温度,让分子呈现越来越快的前进和碰撞反弹运动。

提示词:创建一个交互式模拟,显示水分子形成和断裂氢键的过程,同时显示温度滑块。

图片

图片

对于本次升级的技术难度,有 Reddit 网友 pigeon57434 给出了比较中立的解读:不用太惊叹本次 V3 升级的幅度,因为 RL(强化学习,Reinforcement Learning)潜力极大。以 QwQ-32B 为例,尽管它实际上小了 20 倍,但它在某些方面的表现几乎与 R1 一样好,甚至比 R1 更好。它能那么强,只是因为扩展推理模型还有很大空间,甚至不需要新的基础模型。我敢打赌,使用更复杂的技术,可以轻松获得基于 DeepSeek-V2.5 的推理模型来击败 R1,更不用说这个新版本的 V3 了。

图片

总的来说,这样的免费+高性能的组合将对 OpenAI、Anthropic 等闭源商业模型形成越来越大的压力。

DeepSeek 此次更新再次证明开源模型的爆发力,不仅技术指标逼近顶级商业AI,更以低成本、高自由度推动行业变革。

可以合理推测,此次更新有可能是R2的前置版本,类似去年 V3 (24.12.16)→R1 (25.01.20) 的发布节奏,或许几周内我们可能迎来更强的推理模型 R2。

随着 R2 的临近,全球 AI 竞争格局或将迎来新一轮洗牌。

参考资料:

https://github.com/KCORES/kcores-llm-arena
https://x.com/paulgauthier/status/1904304052500148423
https://x.com/deepanshusharmx/status/1904224760399282587
https://x.com/deepanshusharmx/status/1904363892899492141
https://x.com/karminski3/status/1904212084306653648
https://x.com/pandeyparul/status/1904352867433242926
https://www.reddit.com/r/LocalLLaMA/comments/1jip611/deepseek_releases_new_v3_checkpoint_v30324/
https://aider.chat/docs/leaderboards/
https://x.com/awnihannun/status/1904177084609827054

推荐阅读

成为独角兽之后,我们走了哪些弯路 | 创始人复盘

30天进账百万美元,这家中国团队靠AI盘活沉寂赛道?

国内ToB、海外ToC双线告捷,美图净利润再次大涨60%

中国最低调的AI应用工厂,上线19个产品,年收入超10亿

免费短剧崛起,中小团队产品触达百万月活,已有8款App进入海外榜单

商务合作

Cassie | 微信:18506490569

Ares | 微信:18606066421

Lina | 微信:13381020131

David | 微信:13809501924

Ania | 微信:13720814733

媒体合作

Echo | 微信:13003974360

游戏、应用等APP出海对接

Shadow | 微信:18650708568

卖家对接

Demerly | 微信:18150844790

客户服务

Lia | 微信:baijing018

与CEO聊合作

白鲸出海魏方丹 | 微信:bjbandari02

(添加请备注姓名、公司及职位)

长按识别二维码,备注“白鲸”申请加入白鲸社群,获取更多资讯、活动、资源


© 2024 精读
删除内容请联系邮箱 2879853325@qq.com