OpenAI深夜正式发布首个智能体Operator！（微信文章未删减版）

主要观点总结

OpenAI发布首个智能体Operator，它像人类一样使用电脑，具有自主完成任务的能力。Operator背后的核心技术是Computer-Using Agent（CUA），打破了特定编程接口的局限，可以直接与网页交互。该智能体在多个测试环境中表现出高成功率，但在某些任务中仍存在翻车的可能。OpenAI计划扩展智能体的动作空间并开放API接口，让开发者能够基于CUA构建自定义的计算机智能体。

关键观点总结

关键观点1: OpenAI发布智能体Operator

Operator是一个能够像人类一样使用电脑的智能体，具备精准理解指令和自主完成任务的能力。

关键观点2: Computer-Using Agent（CUA）技术的应用

Operator背后的核心技术CUA，使智能体具备与网页交互的能力，打破了特定编程接口的局限。

关键观点3: 智能体在测试环境中的表现

在多个测试环境中，CUA成功率令人瞩目，如在OSWORLD上的计算机使用任务成功率高达38.1%，在WebArena上的浏览器使用任务成功率达到58.1%。但与人类相比，AI的能力还有差距。

关键观点4: Operator的发布及未来规划

Operator已经正式发布，但目前只有Pro美国用户才能体验。OpenAI计划扩展智能体的动作空间，开放API接口，让开发者能够基于CUA构建自定义的智能体。

关键观点5: 智能体的挑战与解决方案

如果Operator在执行任务中出现错误，人类可以随时接管控制权，并确保任务的完成。此外，还有一个提示注入监视器来防止遇到诈骗网站。

正文

Datawhale分享

Agent：OpenAI，编辑：新智元

OpenAI首个智能体终于亮相了！

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播，首次揭秘能像人类一样使用电脑的AI。

Sam Altman，Yash Kumar，Casey Chu，Reiichiro Nakano

演示中，AI智能体不仅可以精准理解指令，还能自主完成各类任务。

而它的独特之处在于，可以直接与网页交互——打字、点击、滚动，几乎一气呵成。

比如，自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

「Operator」背后操盘手便是Computer-Using Agent （CUA），打破了特定编程接口的局限，像人类一场直接与GUI进行交互。

从此，通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了！

OpenAI官博将此称为，AI与数字世界的「通用界面」。

「Operator」究竟有多厉害？

在多个测试环境中，CUA成功率令人瞠目：在OSWORLD上完成计算机使用任务成功率高达38.1%，比此前SOTA提升近16%；在WebArena上完成浏览器使用任务成功率达到58.1%，性能飙升22%。

不过与人类（72.4%和78.2%）相较之下，AI的能力还是有所差距。

在WebVoyager上，CUA更是达到了惊人的87%。

好消息是，「Operator」终于上线。而坏消息是，目前只有Pro美国用户才能体验。

为了弥补这一遗憾，奥特曼提前剧透了，o3-mini直接在ChatGPT中「开源」，Plus用户会有更多用量。

虽然但是，我们其实也可以用国产「Operator」替代一波（手动狗头）

随着Operator的正式发布，总裁Greg也再一次强调，「2025年，就是智能体之年」。

话不多说，直接上演示。

AI接管PC订餐，但直播小翻车

我们‍可以在Operator中选择OpenTable，让它订一张今晚7点在Beretta的两人位子。

可以看到，输入查询后，Operator会实例化指令，创建在云端运行的浏览器操作。

随后，Operator转到了搜索Beretta的URL。非常令人惊喜的是，OpenTable默认的地址是弗吉尼亚，但它自动更正为旧金山。

再比如，我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后，就可以直接传给Operator，同时告诉他我们偏好的商店是Gus。

在这种情况下，Operator很快就根据GPT-4o的视觉功能理解了图中的意思，还明白Gus商店是哪里。

接下来，就像OpenTable一样，它实例化了一个浏览器，然后开始了购买环节。

如果在以前，如果我们想用智能体执行类似操作，就必须确定特定网站有API，并且这个API有一切所需的功能，然而，大部分网站都是没有API的。

而CUA通过教模型使用我们日常使用的基本界面，它就解锁了一系列以前无法访问的软件！

可以看到，在执行操作的过程中，Operator进行了一些内在独白，总结出了思维链。

然后它选择了鸡蛋，点击了添加按钮。而且每执行一个操作还会给电脑截个图，这样它就知道自己的操作对电脑有什么影响。

接下来，它点击搜索框，输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续，直到任务完成。

当然，人类也可以随时接过Operator的控制权，这就保证了用户随时可以控制Operator，并向它发出指令。

有趣的是，人类接管之后，Operator并不能看到我们在接管模式下做的事——这就保证了私密性。

接下来，OpenAI的研究者给它下达了一项新任务：用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。

非常真实的是，Operator小翻车了一下。

那就让它试试，买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎，展开搜索。

随后，研究者们让Operator定10个中等披萨，指令发出后，它会主动向人类确认任务。

而在实际购买时，也会需要人类登录自己的账号，才能完成下一步操作。

问题来了：如果Operator买错东西、订错酒店了怎么办呢？不用担心，这种情况下，人类需要随时确认，它才能继续行动。

如果它遇到诈骗网站，对此还会有一个提示注入监视器，功能跟防病毒软件一样，可以观察和监视它的操作，遇到可疑之处立马停止。

L3级AGI达成，开启下一场人机交互革命

‍

支撑Operator的核心技术Computer-Using Agent（CUA），被训练用于与图形用户界面GUI（在屏幕上看到的按钮、菜单和文本框）进行交互，就像人类一样。这就让它具有了很高的灵活性，无需依赖操作系统或特定网页API，从而能够完成各种数字化任务。

更进一步的，通过将高级GUI感知与结构化问题解决能力结合在一起，CUA还可以将任务分解为多步骤计划，并在遇到挑战时自适应纠错。

CUA能够如此之强，是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法，研发团队攻克了AI操作计算机的诸多技术难关。

其最大的突破在于，实现了通用界面。

传统AI往往被局限于专门的API，而CUA可以像人类一样操作任何软件工具。这意味着，AI能适应几乎所有的计算机环境，解决AI长期以来难以触及的「长尾」数字使用场景。

还记得此前，彭博爆料的OpenAI内部AGI路线图吗？Operator的出世，意味着L3级智能体时代正式开启！

下一个目标，OpenAI还将扩展智能体的动作空间。接下来几周/几个月，我们还将会看到更多的智能体。

此外，他们还计划开放API接口，让开发者能够基于CUA构建自定义的计算机智能体。

OpenAI下场智能体Operator，或许将成为下一场人机交互革命的起点。

参考资料：

https://x.com/sama/status/1882488842290356462