首页   

OpenAI深夜正式发布首个智能体Operator!

Datawhale  · 科技自媒体  · 12 小时前

主要观点总结

OpenAI发布首个智能体Operator,它像人类一样使用电脑,具有自主完成任务的能力。Operator背后的核心技术是Computer-Using Agent(CUA),打破了特定编程接口的局限,可以直接与网页交互。该智能体在多个测试环境中表现出高成功率,但在某些任务中仍存在翻车的可能。OpenAI计划扩展智能体的动作空间并开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。

关键观点总结

关键观点1: OpenAI发布智能体Operator

Operator是一个能够像人类一样使用电脑的智能体,具备精准理解指令和自主完成任务的能力。

关键观点2: Computer-Using Agent(CUA)技术的应用

Operator背后的核心技术CUA,使智能体具备与网页交互的能力,打破了特定编程接口的局限。

关键观点3: 智能体在测试环境中的表现

在多个测试环境中,CUA成功率令人瞩目,如在OSWORLD上的计算机使用任务成功率高达38.1%,在WebArena上的浏览器使用任务成功率达到58.1%。但与人类相比,AI的能力还有差距。

关键观点4: Operator的发布及未来规划

Operator已经正式发布,但目前只有Pro美国用户才能体验。OpenAI计划扩展智能体的动作空间,开放API接口,让开发者能够基于CUA构建自定义的智能体。

关键观点5: 智能体的挑战与解决方案

如果Operator在执行任务中出现错误,人类可以随时接管控制权,并确保任务的完成。此外,还有一个提示注入监视器来防止遇到诈骗网站。


正文

 Datawhale分享 

Agent:OpenAI,编辑:新智元

OpenAI首个智能体终于亮相了!

奥特曼带领团队毫无预警地开启半小时「Operator」在线直播,首次揭秘能像人类一样使用电脑的AI。

Sam Altman,Yash Kumar,Casey Chu,Reiichiro Nakano

演示中,AI智能体不仅可以精准理解指令,还能自主完成各类任务。

而它的独特之处在于,可以直接与网页交互——打字、点击、滚动,几乎一气呵成。

比如,自动填写繁琐的在线表单、上网购物、创建表情包、处理重复性浏览器任务等等。

「Operator」背后操盘手便是Computer-Using Agent (CUA),打破了特定编程接口的局限,像人类一场直接与GUI进行交互。

从此,通往AGI道路上的又一大瓶颈被扫除。智能体可以在数字世界中四处行动了!

OpenAI官博将此称为,AI与数字世界的「通用界面」。

「Operator」究竟有多厉害?

在多个测试环境中,CUA成功率令人瞠目:在OSWORLD上完成计算机使用任务成功率高达38.1%,比此前SOTA提升近16%;在WebArena上完成浏览器使用任务成功率达到58.1%,性能飙升22%。

不过与人类(72.4%和78.2%)相较之下,AI的能力还是有所差距。

在WebVoyager上,CUA更是达到了惊人的87%。

好消息是,「Operator」终于上线。而坏消息是,目前只有Pro美国用户才能体验。

为了弥补这一遗憾,奥特曼提前剧透了,o3-mini直接在ChatGPT中「开源」,Plus用户会有更多用量。

虽然但是,我们其实也可以用国产「Operator」替代一波(手动狗头)

随着Operator的正式发布,总裁Greg也再一次强调,「2025年,就是智能体之年」。

话不多说,直接上演示。

AI接管PC订餐,但直播小翻车


我们可以在Operator中选择OpenTable,让它订一张今晚7点在Beretta的两人位子。

可以看到,输入查询后,Operator会实例化指令,创建在云端运行的浏览器操作。

随后,Operator转到了搜索Beretta的URL。非常令人惊喜的是,OpenTable默认的地址是弗吉尼亚,但它自动更正为旧金山。
再比如,我们做饭需要鸡蛋、菠菜、鸡大腿和辣椒。在纸上写下这些食材后,就可以直接传给Operator,同时告诉他我们偏好的商店是Gus。
在这种情况下,Operator很快就根据GPT-4o的视觉功能理解了图中的意思,还明白Gus商店是哪里。
接下来,就像OpenTable一样,它实例化了一个浏览器,然后开始了购买环节。
如果在以前,如果我们想用智能体执行类似操作,就必须确定特定网站有API,并且这个API有一切所需的功能,然而,大部分网站都是没有API的。
而CUA通过教模型使用我们日常使用的基本界面,它就解锁了一系列以前无法访问的软件!
可以看到,在执行操作的过程中,Operator进行了一些内在独白,总结出了思维链。
然后它选择了鸡蛋,点击了添加按钮。而且每执行一个操作还会给电脑截个图,这样它就知道自己的操作对电脑有什么影响。
接下来,它点击搜索框,输入菠菜。这种采取行动、抓取屏幕截图、创建子计划的循环会一直持续,直到任务完成。
当然,人类也可以随时接过Operator的控制权,这就保证了用户随时可以控制Operator,并向它发出指令。
有趣的是,人类接管之后,Operator并不能看到我们在接管模式下做的事——这就保证了私密性。
接下来,OpenAI的研究者给它下达了一项新任务:用StubHub买四张本周末旧金山勇士队比赛、票价500以下的门票。
非常真实的是,Operator小翻车了一下。
那就让它试试,买明早圣玛丽澳网公开赛的门票。Operator立马打开引擎,展开搜索。
随后,研究者们让Operator定10个中等披萨,指令发出后,它会主动向人类确认任务。
而在实际购买时,也会需要人类登录自己的账号,才能完成下一步操作。
问题来了:如果Operator买错东西、订错酒店了怎么办呢?不用担心,这种情况下,人类需要随时确认,它才能继续行动。
如果它遇到诈骗网站,对此还会有一个提示注入监视器,功能跟防病毒软件一样,可以观察和监视它的操作,遇到可疑之处立马停止。

L3级AGI达成,开启下一场人机交互革命


支撑Operator的核心技术Computer-Using Agent(CUA),被训练用于与图形用户界面GUI(在屏幕上看到的按钮、菜单和文本框)进行交互,就像人类一样。这就让它具有了很高的灵活性,无需依赖操作系统或特定网页API,从而能够完成各种数字化任务。
更进一步的,通过将高级GUI感知与结构化问题解决能力结合在一起,CUA还可以将任务分解为多步骤计划,并在遇到挑战时自适应纠错。
CUA能够如此之强,是因为建立在OpenAI多年关键研究——多模态、推理和安全性领域基础之上。通过融合GPT-4o的视觉能力、深度推理技术和创新的强化学习方法,研发团队攻克了AI操作计算机的诸多技术难关。
其最大的突破在于,实现了通用界面。
传统AI往往被局限于专门的API,而CUA可以像人类一样操作任何软件工具。这意味着,AI能适应几乎所有的计算机环境,解决AI长期以来难以触及的「长尾」数字使用场景。
还记得此前,彭博爆料的OpenAI内部AGI路线图吗?Operator的出世,意味着L3级智能体时代正式开启!
下一个目标,OpenAI还将扩展智能体的动作空间。接下来几周/几个月,我们还将会看到更多的智能体。
此外,他们还计划开放API接口,让开发者能够基于CUA构建自定义的计算机智能体。
OpenAI下场智能体Operator,或许将成为下一场人机交互革命的起点。
参考资料:
https://x.com/sama/status/1882488842290356462

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com