llama-4：最好的开源多模态大模型//@karminski--20250406100646（微信文章未删减版）

llama-4：最好的开源多模态大模型//@karminski-牙医:解读下 llama-4 官方测试数据 Scout，Maverick写代码打不过 DeepSeek-V3-0324 多模态测试Scout和Maverick是优于 GPT-4o 的。那么 llama-4 应该是开源的最好多模态大模型。超长文本翻译测试目前没对手所以 llama-4 的建议场景是超长翻译，以及多模态任务（注意只支持图像输入，不支持图像输出

llama-4 发布啦！！！

总计分三个模型：

Llama-4-Scout-17B-16E, （其实是109B）MoE模型，多模态输入，16个专家，激活参数量17B，上下文长度10M，知识截至时间2024年8月

Llama-4-Maverick-17B-128E，（其实是402B） MoE模型，多模态输入，128个专家，激活参数量17B，上下文长度1M，知识截至时间2024年8月

Llama-4-Behemoth-288B-16E，（其实是2T），还在训练中

我们先来看大家最关注的 instruction 版本性能：

其中官方宣称 Llama-4-Scout-17B-16E 测试中好于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。

Llama-4-Maverick-17B-128E 则来到了 lmarena排行榜第二名的成绩，仅次于 Gemini-2.5-pro. 官方宣称写代码水平接近 DeepSeek-V3-0324

Llama-4-Behemoth-288B-16E 测试还未放出。

吐槽时间，强烈批评这个傻逼的命名方式，把激活参数量当总参数量。
按照这个命名方式，DeepSeek-R1 就应该是 DeepSeek-R1-37B。

我觉得最大的原因是，llama 不得不争取开源第一这个头衔，但是又不想失去之前的受众，即大家都是本地运行llama的，不然我干嘛不用更好的付费模型。所以只能搞出了这么傻逼的命名。

另外，之前的猜测是对的，即有三个模型。其中一个必须要小于120B (llama-4-scout-109B)，不然本地完全无法运行。但赶鸭子上架太明显了，第三个Behemoth甚至都没发布，更恐怖的是这玩意有2T参数。A100 80G 一个8卡机器都装不下...... 纯粹就不打算给人用了, 只能卖API.

总之稍后KCORES 大模型竞技场马上为大家带来 llama-4 的写代码评测，是骡子是"马", 咱们拉出来溜溜！敬请期待！

#AI生活指南##ai创造营#

llama-4：最好的开源多模态大模型//@karminski--20250406100646

正文

2025-04-06 10:06
本条微博链接