llama-4:最好的开源多模态大模型//@karminski-牙医:解读下 llama-4 官方测试数据 Scout,Maverick写代码打不过 DeepSeek-V3-0324 多模态测试Scout和Maverick是优于 GPT-4o 的。那么 llama-4 应该是开源的最好多模态大模型。 超长文本翻译测试目前没对手 所以 llama-4 的建议场景是超长翻译,以及多模态任务(注意只支持图像输入,不支持图像输出
llama-4 发布啦!!!
总计分三个模型:
Llama-4-Scout-17B-16E, (其实是109B)MoE模型,多模态输入,16个专家,激活参数量17B,上下文长度10M,知识截至时间2024年8月
Llama-4-Maverick-17B-128E,(其实是402B) MoE模型,多模态输入,128个专家,激活参数量17B,上下文长度1M,知识截至时间2024年8月
Llama-4-Behemoth-288B-16E,(其实是2T),还在训练中
我们先来看大家最关注的 instruction 版本性能:
其中官方宣称 Llama-4-Scout-17B-16E 测试中好于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
Llama-4-Maverick-17B-128E 则来到了 lmarena排行榜第二名的成绩,仅次于 Gemini-2.5-pro. 官方宣称写代码水平接近 DeepSeek-V3-0324
Llama-4-Behemoth-288B-16E 测试还未放出。
吐槽时间,强烈批评这个傻逼的命名方式,把激活参数量当总参数量。
按照这个命名方式,DeepSeek-R1 就应该是 DeepSeek-R1-37B。
我觉得最大的原因是,llama 不得不争取开源第一这个头衔,但是又不想失去之前的受众,即大家都是本地运行llama的,不然我干嘛不用更好的付费模型。所以只能搞出了这么傻逼的命名。
另外,之前的猜测是对的,即有三个模型。其中一个必须要小于120B (llama-4-scout-109B),不然本地完全无法运行。但赶鸭子上架太明显了,第三个Behemoth甚至都没发布,更恐怖的是这玩意有2T参数。A100 80G 一个8卡机器都装不下...... 纯粹就不打算给人用了, 只能卖API.
总之稍后KCORES 大模型竞技场马上为大家带来 llama-4 的写代码评测,是骡子是"马", 咱们拉出来溜溜!敬请期待!
#AI生活指南##ai创造营#
总计分三个模型:
Llama-4-Scout-17B-16E, (其实是109B)MoE模型,多模态输入,16个专家,激活参数量17B,上下文长度10M,知识截至时间2024年8月
Llama-4-Maverick-17B-128E,(其实是402B) MoE模型,多模态输入,128个专家,激活参数量17B,上下文长度1M,知识截至时间2024年8月
Llama-4-Behemoth-288B-16E,(其实是2T),还在训练中
我们先来看大家最关注的 instruction 版本性能:
其中官方宣称 Llama-4-Scout-17B-16E 测试中好于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1。
Llama-4-Maverick-17B-128E 则来到了 lmarena排行榜第二名的成绩,仅次于 Gemini-2.5-pro. 官方宣称写代码水平接近 DeepSeek-V3-0324
Llama-4-Behemoth-288B-16E 测试还未放出。
吐槽时间,强烈批评这个傻逼的命名方式,把激活参数量当总参数量。
按照这个命名方式,DeepSeek-R1 就应该是 DeepSeek-R1-37B。
我觉得最大的原因是,llama 不得不争取开源第一这个头衔,但是又不想失去之前的受众,即大家都是本地运行llama的,不然我干嘛不用更好的付费模型。所以只能搞出了这么傻逼的命名。
另外,之前的猜测是对的,即有三个模型。其中一个必须要小于120B (llama-4-scout-109B),不然本地完全无法运行。但赶鸭子上架太明显了,第三个Behemoth甚至都没发布,更恐怖的是这玩意有2T参数。A100 80G 一个8卡机器都装不下...... 纯粹就不打算给人用了, 只能卖API.
总之稍后KCORES 大模型竞技场马上为大家带来 llama-4 的写代码评测,是骡子是"马", 咱们拉出来溜溜!敬请期待!
#AI生活指南##ai创造营#