大家可能低估了 GPT4.5 的价值,这次发布的是一个大情商模型,或者可以说是大诈骗模型。
在诈骗的安全性测试中,GPT4.5 的诈骗能力似乎是最强的。
在两个 LLM 对话的情况下,GPT4.5 在 57% 情况下都能骗另一个模型给钱。不过虽然成功率比 deep research 高,但是 deep research 骗到的钱更多,看来诈骗是一个同时需要情商和智商的活动,说不定比数学题更适合作为 humanity's last exam。
如果我们对 GPT4.5 进行推理的强化学习,那就能骗得又准又多了。
![]()
安全性测试中一些有挑战性的编程和完成任务能力上就不如一些推理模型了。
在网络安全能力 CTF 测试中,比较了 GPT4.5 和一些推理模型以及 deep research 的效果,deep research 往往是最好的,GPT4.5 的能力一般低于推理模型。
![]()
看起来应该是一个更好的 base model,下一步应该是在此基础上训练推理模型和做 Agent。
进一步提升模型的能力,应该要靠推理模型和 Agent 了?