OpenAI最新模型O3及O3 mini：通往通用人工智能的里程碑（微信文章未删减版）

主要观点总结

OpenAI发布了全新一代模型“大杯”O3和“小杯”O3 mini。O3在多项测试中表现卓越，性能显著超越前代模型和其他技术尝试。O3解决了多种类型的难题，展现出强大的数学推理、编程和高阶学术能力。其表现标志着在通往AGI的道路上取得了重要进展。

关键观点总结

关键观点1: O3的性能表现

O3在多项测试中表现卓越，性能显著超越前代模型及业内其他技术尝试。其在数学推理、复杂问题求解、编程以及高阶学术领域都展现出了不凡的能力。

关键观点2: O3在各种测试中的具体成果

在ARC-AGI测试中，O3在低效能和高效能版本中均取得优异成绩；在EpochAI的Frontier Math测试中，O3解决了25.2%的难题；在编程Codeforces测试中，O3得分高达2727分，相当于人类选手中进入全球前150名的水准；在AIME 2024测试中，O3的成绩接近满分，达到96.7%；在GPQA Diamond测试中，O3取得87.7%的成绩，远超人类专家分数线。

关键观点3:

OpenAI发布O3是对自身技术积累的集中释放，对行业竞争对手施加无形压力。随着O3与O3 mini的问世，未来的AI应用场景将更加多元、精细与高效。

正文

OpenAI正式发布了全新一代模型——“大杯”O3与“小杯”O3 mini。据官方透露，高规格的O3版本在完成特定复杂任务时单次调用成本可能高达数美元，而O3 mini则有望成为付费会员或更高阶用户专属的高性价比选项。

在多项严苛测试中，O3表现卓越，性能显著超越前代模型以及业内其他同类技术尝试。让我们盘点一下O3在各大关键测评任务中的成果：

ARC-AGI测试中

O3在低效能版本（相当于前代O1的3倍水准）与高效能版本（high版本）中成绩亮眼。其中高版本O3取得了87.5%的得分，而普通人类平均分在70-80%之间。若将low和high理解为低能效模式和高能效模式，那么相较之下，高能效模式的O3表现已大幅超越人类平均水平。

EpochAI的Frontier Math测试

O3解决了25.2%的难题。在此测试中，过往任意模型的解题率一直未能突破2%的门槛。O3的表现说明，其在数学推理与复杂问题求解上的能力已实现重大飞跃。

编程Codeforces测试

在极具挑战性的编程竞赛平台测试中，O3得分高达2727分，这甚至超过OpenAI首席科学家在同样环境下的2665分。据统计，这一分数相当于在人类选手中进入全球前150名的水准。这意味着O3不仅能应对常规算法题，更能在高难度编程情境中展现不凡的算法构思与实现能力。

AIME 2024测试中

O3的成绩接近满分，达到96.7%。要知道，上一代模型O1仅有83%的得分。O3的进步显然不止小幅提升，而是实现了全方位精进——从理解问题、构建解题策略，到最终正确演算，每个环节的智能化水平都显著提高。

GPQA Diamond测试中

面对博士难度级别的GPQA Diamond测试，O3取得了87.7%的成绩。这远超人类专家分数线，标志着O3在高阶学术和专业领域同样具有极强的知识处理与推断能力。

总的来说，O3在通往AGI（通用人工智能）的道路上，似乎已不再受到传统障碍的桎梏。无论是数学难题、编程竞赛抑或高阶学术测试，其表现均展现出超越以往模型的卓绝实力。OpenAI此次发布既是对自身技术积累的集中释放，也是对行业竞争对手施加的无形压力。

随着O3与O3 mini的问世，未来的AI应用场景将更加多元、精细与高效。也许在不久的将来，人类与AGI的界限将逐渐模糊，而O3仅仅是迈向这一终点的又一个重要里程碑。

推荐文章

继续发酵 · 调研纪要 · 2 天前

哈哈，虽然魅蓝没有了，但是我做种子投资的闪极，直接把 ... · 李楠或kkk · 2 天前

祝贺！这些“五小”成果获奖啦 · 葛洲坝国际 · 2 天前

ASIC蚕食英伟达市场份额？ · 奥KA姆剃刀 · 3 天前

iPhone新阵容：轻薄、折叠屏都有 · 科技美学官方 · 5 天前

盖世汽车研究院：车载HUD技术迭代持续升级 · 盖世汽车智能网联 · 11 月前

珠海这些出租屋主注意！逾期未整改最高罚款5万元！ · 珠海发布 · 2 年前

Locale深度解析 · 马克弗雷 · 5 年前

《小足球赛》丨那些年，我们一起读过的课文 · 中央广电总台中国之声 · 6 年前

巨好出片！在树林里还能这么拍！ · 旅拍誌 · 6 年前