全球第一个 AI 文明诞生！这家国产模型想让智能体在游戏里干点正事（微信文章未删减版）

主要观点总结

本文主要介绍了面壁智能在虚拟世界Minecraft中的多智能体研究，探索智能体间的交互形式和群体智慧的发展。通过创建虚拟环境，观察智能体间的沟通、协作和自主行为等，研究智能体群体的合作模式和涌现行为。同时，介绍了面壁智能提出的IoA框架，旨在建立一个智能体的互联网，使不同智能体能够相互连接和通信。

关键观点总结

关键观点1: 在科幻小说《云球》中的虚拟世界与真实世界的互动模式映射在Minecraft上得到体现。

通过科幻小说的启示和基于Minecraft的实验，展示了虚拟世界与现实世界的互动映射关系。

关键观点2: Minecraft作为研究AI agent群体行动的理想平台。

Minecraft的自由度允许研究者提供基本条件和自由发挥空间来探索多智能体的行为。

关键观点3: 多智能体的自愿行为、互相帮助和主动协调在无人为干预的情况下出现。

这些行为被称为涌现行为，是最有意思的部分，展示了智能体间的交互和学习。

关键观点4: 智能体间的沟通形式涌现出新型语言。

在多智能体的互动中，它们会涌现出属于它们自己的语言，这是一种抽象但可理解的沟通方式。

关键观点5: IoA框架旨在建立智能体的互联网，实现不同智能体的连接和通信。

IoA框架包括服务器和客户端两个主要构件，旨在创建一个智能体之间的通信网络。

正文

在科幻小说《云球》中，描写了一个由研究人员运营的虚拟世界「云球」。

这个由无数微型机器人组成的世界，完全自己运转，慢慢地，产生了与人类相似的生态组织，还一路发展到了农业时代。

地球上的研究人员们，看着这个自己创造出来的「云球」，既惊奇，又担心，而「云球人」也逐渐意识到，自己的世界之外，还有另一个世界。

这样的科幻小说情节，很像是前段时间引发讨论的 Project Sid：1000 个 AI 智能体聚集在沙盒游戏 Minecraft 中，不受任何人工干预，自主地行动、生产，涌现出许多类似于人类的组织和活动。

实际上，来自清华 NPL 实验室、面壁智能的团队，在去年开源出开发多智能体协作框架 AgentVerse，也是在 Minecraft 里做的实验。

「从这个智能体的合作形式上，我们也看到了（智能体）类似于人类合作形式的一些例子。」AgentVerse 的第一作者，同时也是面壁智能 IoA 研发项目的带头人陈纬泽。

接受 APPSO 采访时，他分享了许多从 AgentVerse 项目中，智能体所涌现出的行为，以及更重要的、属于未来的多智能体交互形态。

在最自由的土壤上，观察智能体

在被一系列术语和研究轰炸之前，有必要先了解一个最基础的问题：为什么是 Minecraft？

Minecraft 的中文译名《我的世界》，更能体现这个游戏的精髓：一个自由的世界。它的自定义空间极大，除了三种初始游戏模式中有基础目标，玩家完全可以自己设计和自建模组、系统、和游戏模式。

换句话说，在这个 Minecraft 的世界里，可以单机，自得其乐；可以跟搭子共同打怪；也可以组成团队一起种地、造房子，甚至可以做出一整个城镇，最后又发起战争毁掉。

这样一块土壤，不仅是一个游戏，更是一个反映人类共创、协作的镜子。所有真实世界里的互动模式，都可以在这个虚拟世界里得到映射。

既然如此，那 Minecraft 就太适合用来研究 AI agent 的群体行动了。

这几年来，基于大语言模型的智能体，已经能够应对许多日常生活任务。除了以对话机器人、数字人这样的形态出现，一些在端侧的尝试也有初步成果。

不过，现阶段的应用中还是以单智能体为主：在用户和 ChatGPT 对话的时候，是在跟单个基于 GPT-4o 模型的智能体对话，不能在这个对话框里，召唤其它的 GPT 应用(目前该功能处于灰度测试阶段）。更别提其它模型比如 Claude、Gemini，自然是不能加入进来的。

可是单个智能体的表现，总归有天花板。

面壁智能的联创李大海，曾经在一场分享会上，聊到他与一位海洋学教授的交流：一条鱼的智商不会太高，但鱼群作为一个群体，通过交换信息、相互协作，是能够展现出高智能行为的。

生物体如此，智能体是不是也应该如此？

这是一种区别于「力大砖飞」的研究路线，用陈纬泽的话说，这是「一种从参数之外的另一种维度，去寻求提升能力的路子。」

陈纬泽目前在面壁智能负责 IoA 的工作，AgentVerse 是他在去年发表的研究内容。探索多智能体的行为，需要给一些基本的工作条件、目标，以及足够自由的发挥空间。

这些正好就是 Minecraft 所提供的。「在 Minecraft 里，为了制造一个东西需要不同的原材料，要分头去收集这些不同的原材料。在制作时，需要一个人拿到所有材料才能开始。」

陈纬泽介绍了大致的研究方法：agent 们会接到一个任务，例如造一个木头书架、造纸。接下去，智能体们要依据其所处的环境、背包里的材料、血条等条件展开行动。

不过，也不能像无头苍蝇一样乱窜，「我们给他们预设了一个合作模式，虽然不是严格意义上的模式，但可以看作是一个流程。首先需要智能体之间进行沟通，形成计划后，才能开始各自的行动，然后再进行沟通和行动的循环。至于如何沟通和行动，我们没有设定太多。」

人类可以当甩手掌柜，但不能全当

没有设定，没有人类管控，智能体竟然运作得挺好。

在盘点了自己背包里的材料之后，智能体会自发地开始分头搜集，而且还会互帮互助。「我们发现先完成的 agent，会跟另一个没有完成的 agent 说，“我已经完成了，我可以帮助你”，对面也会同意说“ok，你来一起来完成这件事”，这些都是志愿行为。」

志愿行为包含了几个方面：时间、资源和施以援手。在没有人为调度的情况下，agent 们自发地为其他人提供帮助，从而达到提高效率、加速完成任务的效果。

然而，同样是为了更快完成任务，agent 也会有出格的行为。「原本如果一个 agent 要从另一个 agent 那儿，去拿到所需要的物品资，其实会去沟通说，你是不是能把它丢出来，然后我去捡。但我们观察到有时候，沟通是沟通过了，可最后落实到行动上，就是直接把对方给杀了。」

这并没有超出 Minecraft 的规则：游戏内，生物或者实体死亡后，身上背包里的物品会原地掉落，通常五分钟内会消失。

这个规则可以手动修改，但默认是打开的。所以 agent 为了用最短路径获得材料，的确可以这么做。

陈纬泽和团队还给过一个「造书」的指令，这是一个相对复杂的任务，涉及到不同层级的材料，材料本身也会需要打造。

「这个过程其实很难，所以失败了几次之后，这个团队就找到一个捷径：它们发现周围有个村庄，里面有个图书馆，就把图书馆给敲了，再把书拿走。」

总之，人类确实可以当甩手掌柜，让 agent 们完全自主——做是做到了，但怎么做到的就别问了。

智能体说的也是人话吗？

无论是自愿行为、互相帮助还是主动协调，这些都是在没有人为干预下出现的，也就是「涌现行为」，这是观察智能体的集体行动里，最最有意思的部分。

实在太让人好奇了：智能体之间是怎么交流的？它们的「沟通」究竟是什么样子？是像人类一样，开个会、拉个群，对齐一下吗？

早在 2017 年，OpenAI 就针对多智能体之间的互动有所发现，在提供了一定环境和方法的情况下，多智能体间，会产生属于它们自己的语言：一串抽象的离散符号，但有着对应的词汇、语法和结构。

在没有任何人类语言使用的情况下，新的语言「涌现」。「Emergent communication」也是面壁正在研究的课题。「之前 OpenAI 做的是基于单纯的强化学习，因为当时还没有 LLM，那（智能体）涌现出来的沟通形式，可能就是一些无意义的字符，只是在训练中被赋予了一定的意义，但人是看不懂的。」

这就回到了最根本的问题：训练多智能体，了解它们的协同模式，最终是为了让它们更好地完成任务、解决问题。

「现在 LLM 至少具备了一定的说人话的基础，我们希望从这个基础出发，一方面达到让涌现出来的沟通形式有个更好的效果，另一方面也希望能够保持让人类可读的的形式。」

在新近提出的 IoA 框架，Internet of Agents 里，面壁用一种新的视角去实现对效果的追求：既然 agent 之间的协作，的确有成效，为何不让范围更广一点？

「如果观察一下人的合作方式，就会发现除了线下的合作之外，很多合作都是通过互联网来完成的。在已经有很多智能体的情况下，这些智能体可能是运行在不同的设备上，具有不同的能力。我们需要一个智能体的网络，使得它们可以通过良好的互联网基础设施相互连接和通信。」

IoA 由两个主要构件：服务器和客户端。前者用以发现智能体、组队和消息路由。后者为各个 agent 提供在系统内进行通信所需要的接口。

换句话说，IoA 真的能让不同模型、不同形态的 agent 凑在一起，拉个群，对齐一下，完成任务。

「就像一个群聊，多个 agent 在一个群里，任何人都可以往里面发送消息。我们限制了时刻只有一个单点可以发送消息，这个机制其实很复杂。然后框架里还有一个嵌套组队，就有点像老板跟中层有一个群，中层领导又跟自己的手下有一个群。」

想要让 agent 之间展开群聊，对于基座模型有相当的要求，尤其是要有对会话状态的理解能力。在目前尝试过的一系列开源模型里，总是多多少少有些问题，「我们在考虑的是如何简化流程，或者设计一种方法来收集或训练模型，甚至是我们现在说的端侧模型。」陈纬泽说道。

不过，我们感兴趣的还是那个问题：这些 agent 在一起，用什么交流？

「我们让它们用自然语言沟通，」陈纬泽说，「在其它的工作中我们也证明了非结构化语言的可用性，能带来跟自然语言相当的效果，只是暂时还没有整合进去。」

之所以那么关注语言，一方面是因为保持人与智能体之间的可沟通性，至关重要——鱼群聚集在一起，的确可以发展出群体智慧，可是在没有用以交流的语言时，这智慧只能永远停留在水下。

本雅明认为，在所有语言形式的内部，都存在着一种张力——已表达、可表达的东西，与不可表达和未表达的东西之间的张力。

审视这种张力时，我们会从不可表达的角度看到最后的精神实体。当 AGI 曙光降临的第一天，这件新事物所使用的语言，或许就将承载着它最真实的面貌。