首页   

如何评价 OpenAI 发布的 GPT4.5,有哪些看点和不足?

知乎日报  · 问答  · 1 周前

正文

点击上方卡片关注👆

今日凌晨,GPT-4.5 正式发布,号称 OpenAI 最大最好的聊天模型。

OpenAI 发布的 System Card 报告中表示,其正在发布 OpenAI GPT-4.5 的研究预览版,这是其迄今为止最大、知识最丰富的模型。

如何评价 GPT4.5?有哪些看点和不足?一起来看看答主们的回答吧。



如何评价 OpenAI 发布的 GPT4.5,有哪些看点和不足?


| 答主:toyama nao

GPT4.5 速评

目前基于 OpenRouter 接口测了一轮,开分 62 分,与 Sonnet3.7 接近。属于非推理模型最强。

由于只测了一轮,这个分数可能低于其极限性能。

新模型整体输出速度 30 字每秒,约 20TPS,在一众模型里算比较慢的一档。

与 4o 相比,所有类型的题目没有劣化,改进幅度最大的类型是计算(性能几乎与 O1 mini 相当),中等难度的逻辑题目(略劣于 O1 mini),但复杂逻辑推理能看出 4.5 尽力去推理,但相比 O1/O3 还是缺乏一些“灵感”,找不到突破口。

官方宣称的大幅降低幻觉,在几个数学题上能体现出来,之前 4o 对于数字的幻觉很严重,但 4.5 基本消除了这些问题,4.5 知道自己算对了还是算错了。

同样在几个中等难度推理题目,4.5 也清楚知道自己在算什么。



| 答主:张睿杰

大家可能低估了 GPT4.5 的价值,这次发布的是一个大情商模型,或者可以说是大诈骗模型。

在诈骗的安全性测试中,GPT4.5 的诈骗能力似乎是最强的。

在两个 LLM 对话的情况下,GPT4.5 在 57% 情况下都能骗另一个模型给钱。不过虽然成功率比 deep research 高,但是 deep research 骗到的钱更多,看来诈骗是一个同时需要情商和智商的活动,说不定比数学题更适合作为 humanity's last exam。

如果我们对 GPT4.5 进行推理的强化学习,那就能骗得又准又多了。

安全性测试中一些有挑战性的编程和完成任务能力上就不如一些推理模型了。

在网络安全能力 CTF 测试中,比较了 GPT4.5 和一些推理模型以及 deep research 的效果,deep research 往往是最好的,GPT4.5 的能力一般低于推理模型。

看起来应该是一个更好的 base model,下一步应该是在此基础上训练推理模型和做 Agent。

进一步提升模型的能力,应该要靠推理模型和 Agent 了?



| 答主:FURUF

预训练的时代可能结束了,但是结束预训练的时代不太可能。

实际上纯依靠预训练的模型撞墙也是可以遇见的,只有当模型的尺寸和数据集的大小相匹配的时候,模型才能泛化。

诚如 ilya 所说,我们只有一个互联网。所有的数据都用光了,模型再增大就很难再变强了。

但是我认为这并不意味着语言模型到极限了,AlphaGo 的基座模型在没有经过 RL 之 前其实性能没那么好,RL 是一条提升性能的明路。



| 答主:胡一鸣

信号无比清晰,现有的预训练范式结束了。

671b 的 deepseek r1 已经比绝大多数人聪明了。其实一开始的 GPT-4 就已经比绝大多数人聪明了。

但是 CoT、post training、agent 的范式才刚刚开始,LLM 究竟是沦为和搜索引擎、数据库、某种特定的优化算法一个地位,成为构成互联网的众多基础设施之一,还是依靠智能彻底改变整个世界的面貌,就看接下来的五年能把新的范式推到何处了。

GPT-4.5 是上一个时代的终结,而 DeepSeek R1、基于 o3 的 Deep  Research 是下一个时代的先声。

不要忘了,在压缩即智能、预训练通向 AGI 的假设中,模型是需要每读取一个字都得反向传播一轮的。



| 答主:Trisimo崔思莫

大模型的挽歌,文科生的终点。

这可能是人类最后一个商用超大模,以后不会再有了。

几乎在所有基准上,都没有出挑的表现。

最后得到就是一堆花里胡哨的评价词:

情商高,写作强,直觉好,知识渊博……


我们要承认人类世界的(极度)单调性,这些 benchmarks(包括 HLE 人类最后的考试)就代表了人类最关注,最在乎,最可能产生直接价值的领域。

它们可能只占到 GPT-4.5 直觉库的 0.1%。

剩下 99.9% 是啥,就是各种花里胡哨的修辞,莫名其妙的边缘性知识——比如如逗袋鼠宝宝开心,「回」的四种写法……这也可以模型降低幻觉。因为它们直接记住了很多原文,而不是原文的概率模糊版。


GPT-4.5 是一个实验性项目,告诉我们一个道理,在高价值数据量不足的情况下,多余的参数只能用来记忆修辞和边缘性知识。

当然,这也是一种安慰,也许我们只需要一个 30B 参数的模型,就能 cover 人类世界的高价值领域,剩下的就是超多步的推理,超长度的窗口,超前沿的数据。——模型的参数没有提升太多泛化能力,参数不能在内部产生前所未见的新知,也没有明显提升推理。做参数,不如喂知识,做 RL,我想这就是 GPT-5 在做的,放弃幻想,脚踏实地。

GPT-4.5 是一个娱乐大模型,对于那些喜欢花里胡哨的人来说是高级玩具(比如我)——高情商,好的世界直觉,优秀的修辞。

对于喜欢 Opus,初代 GPT-4 的人,大概就是这种感觉。我们也可以看到要构建一个「萨曼莎级」的对话模型,需要付出的代价是极度高昂的。输入 75 美元 / 输出 150 美元。

GPT-4.5 并非一无是处,在接近实际应用的情况时,比如深度搜索,它能做更细致的素材判断,写更加细腻的最终报告。


题图来源:答主@张睿杰


知乎热门文章

哪吒 2 票房已破 100 亿!导演饺子曾经在知乎留下过这样一段话


为什么《哪吒之魔童闹海》能成为中国影史票房冠军?


有什么东西是外国人吃,而中国人不吃的?


本文内容来自「知乎」
点击上方卡片关注
转载请联系原作者

👇点击【阅读原文】,看更多精彩回答

推荐文章
好莱坞电影有哪些常见套路?  ·  知乎日报  ·  昨天
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com