马斯克发布Grok3：多项测试超越DeepSeek，展现强劲竞争力

AI范儿 · AI 科技自媒体 · 2 天前

主要观点总结

xAI今日发布了新一代大语言模型Grok-3及其精简版Grok-3 mini，并在多项测试中表现出卓越性能。最新基准测试显示，Grok-3在多个领域如数学能力、科学知识评估和编程能力测试中均超越DeepSeek系列。特别是在数学推理和计算效率方面，Grok-3的优势尤为突出。此外，在LMSYS聊天机器人竞技场评估中，Grok-3的得分也领先于其他主流大模型。

关键观点总结

关键观点1: Grok-3及其精简版Grok-3 mini的发布

新一代大语言模型的发布是本文的首要关注点。详细介绍了新模型的发布信息。

关键观点2: Grok-3在多项测试中的卓越表现

文章强调了Grok-3在各种测试中的表现，特别是在数学能力、科学知识评估和编程能力测试中超越DeepSeek系列。

关键观点3: Grok-3在数学推理和计算效率方面的优势

文章特别提到了Grok-3在数学推理和计算效率方面的突出优势，这是其与其他模型相比最为显著的特点。

关键观点4: Grok-3在LMSYS聊天机器人竞技场评估中的领先表现

文章还提到了Grok-3在LMSYS聊天机器人竞技场评估中的得分领先于其他主流大模型，包括GPT-4、Claude等。

正文

xAI今日发布新一代大语言模型Grok-3及其精简版Grok-3 mini。最新基准测试显示，Grok-3在与DeepSeek的直接对比中展现出显著优势。

在数学能力测试（AIME'24）中，Grok-3获得52分，明显超过DeepSeek-V3的39分。科学知识评估（GPQA）方面，Grok-3以75分的成绩领先，而DeepSeek-V3为65分。在编程能力测试（LCB Oct-Feb）中，Grok-3同样以57分超过DeepSeek-V3的36分。

最新公布的AIME 2025性能测试中，Grok-3 Reasoning Beta版本在推理和计算时间复合评分上取得93分的优异成绩，其精简版本Grok-3 mini也达到了90分。相比之下，DeepSeek-R1的得分为75分，而Gemini-2 Flash Thinking仅为54分。这一结果进一步凸显了Grok-3在复杂数学推理和计算效率方面的突出优势。

特别值得注意的是，DeepSeek近期发布的DeepSeek-R1在其他推理能力测试中也未能赶超Grok-3。在数学推理中，Grok-3获得93分，DeepSeek-R1为73分；科学推理中，Grok-3得分85分，DeepSeek-R1为74分；编程推理中，Grok-3达到79分，而DeepSeek-R1为65分。