OpenAI发布首个智能体Operator,它像人类一样使用电脑,具有自主完成任务的能力。Operator背后的核心技术是Computer-Using Agent(CUA),打破了特定编程接口的局限,可以直接与网页交互。该智能体在多个测试环境中表现出高成功率,但在某些任务中仍存在翻车的可能。OpenAI计划扩展智能体的动作空间并开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。
Operator是一个能够像人类一样使用电脑的智能体,具备精准理解指令和自主完成任务的能力。
Operator背后的核心技术CUA,使智能体具备与网页交互的能力,打破了特定编程接口的局限。
在多个测试环境中,CUA成功率令人瞩目,如在OSWORLD上的计算机使用任务成功率高达38.1%,在WebArena上的浏览器使用任务成功率达到58.1%。但与人类相比,AI的能力还有差距。
Operator已经正式发布,但目前只有Pro美国用户才能体验。OpenAI计划扩展智能体的动作空间,开放API接口,让开发者能够基于CUA构建自定义的智能体。
如果Operator在执行任务中出现错误,人类可以随时接管控制权,并确保任务的完成。此外,还有一个提示注入监视器来防止遇到诈骗网站。
OpenAI首个智能体终于亮相了!
奥特曼带领团队毫无预警地开启半小时「Operator」在线直播,首次揭秘能像人类一样使用电脑的AI。
Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano
演示中,AI智能体不仅可以精准理解指令,还能自主完成各类任务。
而它的独特之处在于,可以直接与网页交互——打字、点击、滚动,几乎一气呵成。
比如,自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。
「Operator」背后操盘手便是Computer-Using Agent (CUA),打破了特定编程接口的局限,像人类一场直接与GUI进行交互。
从此,通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了!
OpenAI官博将此称为,AI与数字世界的「通用界面」。
「Operator」究竟有多厉害?
在多个测试环境中,CUA成功率令人瞠目:在OSWORLD上完成计算机使用任务成功率高达38.1%,比此前SOTA提升近16%;在WebArena上完成浏览器使用任务成功率达到58.1%,性能飙升22%。
不过与人类(72.4%和78.2%)相较之下,AI的能力还是有所差距。
在WebVoyager上,CUA更是达到了惊人的87%。
好消息是,「Operator」终于上线。而坏消息是,目前只有Pro美国用户才能体验。
为了弥补这一遗憾,奥特曼提前剧透了,o3-mini直接在ChatGPT中「开源」,Plus用户会有更多用量。
虽然但是,我们其实也可以用国产「Operator」替代一波(手动狗头)
随着Operator的正式发布,总裁Greg也再一次强调,「2025年,就是智能体之年」。
话不多说,直接上演示。
我们可以在Operator中选择OpenTable,让它订一张今晚7点在Beretta的两人位子。
可以看到,输入查询后,Operator会实例化指令,创建在云端运行的浏览器操作。
随后,Operator转到了搜索Beretta的URL。非常令人惊喜的是,OpenTable默认的地址是弗吉尼亚,但它自动更正为旧金山。再比如,我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后,就可以直接传给Operator,同时告诉他我们偏好的商店是Gus。在这种情况下,Operator很快就根据GPT-4o的视觉功能理解了图中的意思,还明白Gus商店是哪里。接下来,就像OpenTable一样,它实例化了一个浏览器,然后开始了购买环节。如果在以前,如果我们想用智能体执行类似操作,就必须确定特定网站有API,并且这个API有一切所需的功能,然而,大部分网站都是没有API的。而CUA通过教模型使用我们日常使用的基本界面,它就解锁了一系列以前无法访问的软件!可以看到,在执行操作的过程中,Operator进行了一些内在独白,总结出了思维链。然后它选择了鸡蛋,点击了添加按钮。而且每执行一个操作还会给电脑截个图,这样它就知道自己的操作对电脑有什么影响。接下来,它点击搜索框,输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续,直到任务完成。当然,人类也可以随时接过Operator的控制权,这就保证了用户随时可以控制Operator,并向它发出指令。有趣的是,人类接管之后,Operator并不能看到我们在接管模式下做的事——这就保证了私密性。接下来,OpenAI的研究者给它下达了一项新任务:用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。那就让它试试,买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎,展开搜索。随后,研究者们让Operator定10个中等披萨,指令发出后,它会主动向人类确认任务。而在实际购买时,也会需要人类登录自己的账号,才能完成下一步操作。问题来了:如果Operator买错东西、订错酒店了怎么办呢?不用担心,这种情况下,人类需要随时确认,它才能继续行动。如果它遇到诈骗网站,对此还会有一个提示注入监视器,功能跟防病毒软件一样,可以观察和监视它的操作,遇到可疑之处立马停止。
支撑Operator的核心技术Computer-Using Agent(CUA),被训练用于与图形用户界面GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,就像人类一样。这就让它具有了很高的灵活性,无需依赖操作系统或特定网页API,从而能够完成各种数字化任务。更进一步的,通过将高级GUI感知与结构化问题解决能力结合在一起,CUA还可以将任务分解为多步骤计划,并在遇到挑战时自适应纠错。CUA能够如此之强,是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法,研发团队攻克了AI操作计算机的诸多技术难关。传统AI往往被局限于专门的API,而CUA可以像人类一样操作任何软件工具。这意味着,AI能适应几乎所有的计算机环境,解决AI长期以来难以触及的「长尾」数字使用场景。还记得此前,彭博爆料的OpenAI内部AGI路线图吗?Operator的出世,意味着L3级智能体时代正式开启!下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。此外,他们还计划开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。OpenAI下场智能体Operator,或许将成为下一场人机交互革命的起点。https://x.com/sama/status/1882488842290356462