首页   

llama-4:最好的开源多模态大模型//@karminski--20250406100646

黄建同学  · AI  · 5 天前

正文

2025-04-06 10:06

llama-4:最好的开源多模态大模型//@karminski-牙医:解读下 llama-4 官方测试数据 Scout,Maverick写代码打不过 DeepSeek-V3-0324 多模态测试Scout和Maverick是优于 GPT-4o 的。那么 llama-4 应该是开源的最好多模态大模型。 超长文本翻译测试目前没对手 所以 llama-4 的建议场景是超长翻译,以及多模态任务(注意只支持图像输入,不支持图像输出
llama-4 发布啦!!!

总计分三个模型:

Llama-4-Scout-17B-16E, (其实是109B)MoE模型,多模态输入,16个专家,激活参数量17B,上下文长度10M,知识截至时间2024年8月

Llama-4-Maverick-17B-128E,(其实是402B) MoE模型,多模态输入,128个专家,激活参数量17B,上下文长度1M,知识截至时间2024年8月

Llama-4-Behemoth-288B-16E,(其实是2T),还在训练中

我们先来看大家最关注的 instruction 版本性能:

其中官方宣称 Llama-4-Scout-17B-16E 测试中好于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama-4-Maverick-17B-128E 则来到了 lmarena排行榜第二名的成绩,仅次于 Gemini-2.5-pro. 官方宣称写代码水平接近 DeepSeek-V3-0324

Llama-4-Behemoth-288B-16E 测试还未放出。

吐槽时间,强烈批评这个傻逼的命名方式,把激活参数量当总参数量。
按照这个命名方式,DeepSeek-R1 就应该是 DeepSeek-R1-37B。

我觉得最大的原因是,llama 不得不争取开源第一这个头衔,但是又不想失去之前的受众,即大家都是本地运行llama的,不然我干嘛不用更好的付费模型。所以只能搞出了这么傻逼的命名。

另外,之前的猜测是对的,即有三个模型。其中一个必须要小于120B (llama-4-scout-109B),不然本地完全无法运行。但赶鸭子上架太明显了,第三个Behemoth甚至都没发布,更恐怖的是这玩意有2T参数。A100 80G 一个8卡机器都装不下...... 纯粹就不打算给人用了, 只能卖API.

总之稍后KCORES 大模型竞技场马上为大家带来 llama-4 的写代码评测,是骡子是"马", 咱们拉出来溜溜!敬请期待!

#AI生活指南##ai创造营#
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com