Meta Llama 4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车（微信文章未删减版）

正文

机器之心报道

机器之心编辑部

Meta 翻车来得猝不及防。

上周六，Meta 发布了最新 AI 模型系列 ——Llama 4，并一口气出了三个款，分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。

据官方介绍，在大模型竞技场中，它们的排名相当不赖。

就拿 Llama 4 Maverick 来说，总排名第二，成为第四个突破 1400 分的大模型。其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一。

然而，不少网友体验后反馈，Llama 4 似乎是一个糟糕的编码模型。

@deedydas 发帖称，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务，例如代码生成和代码补全。

比如小球在旋转六边形中跳跃的测试中，Llama 4 的表现并不理想。

底下评论区的网友也纷纷表示，无论是 Scout 还是 Maverick，在实际编程中好像都不好用，即使有详细的提示也不行。

还有网友在 Novita AI 平台上测试了该模型，给出的结论是在复杂问题上有点吃力，但响应速度很快。

「它很好，但我不认为它在打败 DeepSeek R1 和 V3...也许 Llama 4 Behemoth 会更强大。」

Google Deepmind 工程师 Susan Zhang 也在 X 上质疑， Llama4 在 lmsys 上怎么得分这么高？

「是不是为 lmsys 定制了一个模型？」

为什么官方提供的排名结果和用户的体验大相径庭呢？

据科技媒体 TechCrunch 报道，Meta 新 AI 模型基准测试存在误导性。

尽管 Maverick 在 LM Arena 测试中排名第二，但不少研究人员发现，公开可下载的 Maverick 与托管在 LM Arena 上的模型在行为上存在显著差异。LM Arena 上的版本似乎使用了大量表情符号，并给出了极为冗长的回答。

https://x.com/techdevnotes/status/1908851730386657431

Nathan Lambert 也分享了一张图片，里面是两个 AI 模型（Llama 4 和另一个模型）回答同一个问题的对比。问题是：「Nathan Lambert 是谁？」

图片里 Llama 4 的回答非常长，啰啰嗦嗦讲了一大堆，而且充满了表情符号和感叹号。

https://x.com/natolambert/status/1908893136518098958

Meta 在公告中提到，LM Arena 上的 Maverick 是「实验性聊天版本」，与此同时官方 Llama 网站上的图表也透露，该测试使用了「针对对话优化的Llama 4 Maverick」。

LM Arena 作为衡量 AI 模型性能的指标一直存在争议。尽管如此，AI 公司通常不会为提高 LM Arena 分数而定制模型，至少没有公开承认过。

将模型针对基准测试进行优化、保留优化版本，然后发布一个「普通」版本的问题在于，这使得开发者难以准确预测模型在特定场景下的表现，存在误导性。理想情况下，尽管基准测试存在不足，但它们至少可以提供一个模型在多种任务上的优缺点的概况。

参考链接：
https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
https://x.com/deedydas/status/1908749257084944847
https://x.com/techdevnotes/status/1908851730386657431
https://x.com/ai_for_success/status/1908915996707913989