李飞飞：技术进步应该基于科学，而不是科幻（微信文章未删减版）

正文

自从李飞飞创办 World Labs 之后，大多数时候很低调——与她对空间智能的信念形成对比。

李飞飞认为，ImageNet 所代表的，是对「智能」一半的理解，另一半则在物理空间中。而空间智能，「可以成为一种统一的技术，它能够理解 3D 接地世界以及数字 3D 世界。」

但是在突破到下一个技术层次之前，对现有技术的应用是当下最关键的任务。李飞飞格外关注 AI 在医疗保健事业上的应用，这个领域的变化在她看来，最能体现人工智能的价值：知识、福祉和全球生产力的增长。

以下为李飞飞参与播客 POSSIBLE 时，与主持人 Reid Hoffman 和 Aria Finger 的访谈记录，内容有所编辑。

Reid Hoffman：

今天我们迎来了人工智能的教母，她是一位杰出的、世界闻名的计算机科学家、企业家、教授和人文主义者。很高兴她能与我们一同探讨她在人工智能领域的开创性工作，以及她目前作为空间智能初创公司 World Labs 的联合创始人和 CEO 的角色。

我们将探讨训练机器发展类似人类的空间智能的机制和价值，以及她对公私合作、监管和人工智能创新中同理心重要性的看法。这些都是她感人的回忆录《我看见的世界》中触及的主题——该书记录了她成为世界领先的 AI 专家的崛起，以及她在中国中产阶级的童年和她及其家庭移民到美国时所面临的艰难转变。

Aria Finger：

李飞飞也是 ImageNet 的创造者，这个数据库近二十年前彻底改变了计算机视觉。作为斯坦福大学首任红杉计算机科学教授和以人为本的 AI 研究所的共同创始人，她在道德、包容性和以人为本的 AI 创新方面的领导地位有着悠久的记录。她被列为《时代》杂志「100 位最具影响力的 AI 人物」之一。但老实说，这仅仅是她生平冰山一角。

Reid Hoffman：

飞飞，很高兴见到您。欢迎来到 Possible。我们先从ImageNet谈起，是什么给了你想法？

李飞飞：

很高兴见到你和 Aria。我很难定一个明确的时刻，但大致是在 2006 年左右，我正在深入探索用机器学习算法进行研究，理解物体和图像。

当时无论我往哪里看，都无法逃避这样一个事实，那就是有一个叫做「过拟合」的数学概念与机器学习模型相关。

这就是当模型复杂性与模型所使用的数据不完全匹配时，尤其是如果数据——不仅仅是数据量，还有数据复杂性和数据量——并不能真正有效地驱动模型。

当然，并非所有模型都是平等的。我们现在知道神经网络模型具有如此高的容量和表示能力。但抛开这些术语不谈，数据与模型之间肯定存在相互作用。

无论我往哪里看，人们都没有关注数据，只关注模型。那真的是我获得洞察力的时刻，我认为我们不仅需要看模型，我们需要看数据，并使用数据来驱动模型。

当然，在那个时刻是我的早期职业生涯，在普林斯顿大学担任教职。后来我遇到了名为 WordNet 的研究。WordNet 与计算机视觉无关，但它是一种组织世界概念的奇妙方式。

我喜欢 WordNet 这个名字。一件事接着另一件事，就发生了，ImageNet 的出现是因为需要，我热情地相信大数据和视觉世界需要多样化的表示。

Reid Hoffman：

我想从 ImageNet 到 World Labs 划一条线，然后来看 World Labs 的理念是什么？您正在朝着哪个关键部分努力、现在我们在哪里以及如何理解 World Labs 本身以及作为人工智能趋势的关键？

李飞飞：

我的整个职业生涯一直在痴迷思考一件事，尤其是自从 ImageNet 之后，那就是「什么是智能」，以及我们如何在机器中实现智能。对我来说，如果你观察人类智能的话，这实际上归结为两件简单的事：一是我们使用语言交流作为工具来交谈，组织我们的知识和进行沟通。

但还有另一部分——对我们来说如此深刻的智能的一半——这归结为我们「做」事情。做煎蛋卷、徒步旅行、跟朋友们一起玩、真正享受彼此的陪伴，这些远远超出了我们所说的任何词语。

这部分智慧实际上是基于理解我们所生活的 3D 世界的能力，感知它，并将其转化为一系列理解、推理和预测，以便我们能在其中行事。这种能力——在我看来，被称为空间智能——是体现像人类这样的智能动物的基本本能：处理 3D 空间。

ImageNet 的出现是因为我正在寻找给二维图像中的像素贴标签的途径。对于人类来说，二维图像是 3D 世界的投影。所以你可以看到，这是理解更完整的一个小小步伐。无论是人类、动物还是机器理解那些物体和图像，给它们贴标签都是关键的第一步。

但是现在已经过去了 14、15 年了，我认为我们准备好进行一项更大的任务了，这几乎是一项全垒打任务，旨在解锁最关键的另一半智能——即空间智能的问题。

空间智能真正有趣的是，它实际上有两个方面：一个是物理 3D 世界，另一个是数字 3D 世界。而我们从未真正能够在两者之间生活。但现在，空间智能可以成为一种统一的技术，它能够理解 3D 接地世界以及数字 3D 世界。

Aria Finger：

当我思考空间智能的承诺时，我常常会想，如果回到 1880 年——马车，未铺路的道路——你会觉得那是一个完全不同的世界。但如果你回到 1980 年——人们驾驶着不同的汽车，但他们住在同一些建筑中，他们仍在开车。

这种现实世界的机制基本上是相同的。你认为在接下来的几十年里，这种智能的另一半会改变吗？我们实际上会在现实世界中，看到过去几年在数字世界中看到的巨大变革吗？

李飞飞：

我认为是这样，Aria，我认为现实与数字之间的界限将开始变得模糊。例如，我想象自己正在高速公路上开车，如果轮胎没气了，我有一种感觉，尽管我是一个技术专家，我可能会遇到更换轮胎的难题。

如果我戴上眼镜，或者甚至用手机指向汽车，我就能通过那个轮胎并与之协作，引导我完成换胎的过程——无论是通过视觉引导还是对话或混合——我认为这是一个非常平凡的日常生活例子，真正打破了物理 3D 世界和数字 3D 世界的界限。

这种技术赋予人们力量的形象，无论是更换轮胎还是进行心脏外科手术，对我来说都是非常令人兴奋的。

Aria Finger：

所以你说，你知道，你一直用 LLMs 来教自己东西，我一直觉得很鼓舞人心。就像我的孩子们，他们总是说，「哦，我不，我数学很好，不需要再学习了。」我可以说，「不，不，李飞飞正在用 LLMs 来学习，我觉得你还有要学的。」但当你谈到大型世界模型与 LLMs 时，你看到了什么？你是如何向人们解释这种差异的，你认为这将在未来如何发展？

李飞飞：

从根本上说，就像我说的，一个是关于说事情，另一个是关于看和做事情，所以它们在根本上是不同的模态。大语言模型的基本单位是词汇——无论是字母还是单词，在现有的模型中，我们使用的世界模型，基本单位是像素。

所以它们是非常不同的语言。我几乎感觉语言是人类的语言，三维是自然界的语言。我们真正希望达到一个点，即 AI 算法允许人们与像素世界互动，无论是虚拟的还是物理的。

Reid Hoffman：

你的回答让我想起了你曾经引用的另一句话，那是在引用社会生物学家爱德华·O·威尔逊的话：「我们拥有史前的情感，中世纪的制度，和神一般的科技，这非常危险。」所以，基于这种推理，自然语言，人的教育，你如何逆转这种局面？在人工智能时代，人类面临的机会是什么？

李飞飞：

我仍然相信人，正因为相信，我和我们的朋友们创立了以人为本的人工智能研究所。所以我要反过来：人类能够创造出类似神的技术，以便我们改善我们的中世纪制度，超越我们的旧石器时代情感，或者将我们的旧石器时代情感引导到创造力、生产力和善之中。

Reid Hoffman：

您认为我们在构建帮助实现我们愿望的技术时，关键是什么？是关注和同情心吗？是关于以人为中心和互动的共生关系的问题吗？在拥有技术，以及 AI 能够帮助我们实现更好的自我的时候，接下来您会构建什么？

李飞飞：

之前我们几乎把「旧石器时代」当作一个负面词汇，但实际上它并不是一个负面词汇。它是一个非常中性的词汇。

人类情感，或人类自我形象，即我们是谁，深深地根植于进化，在我们的 DNA 中。

正因为如此，世界同时既美丽又混乱。所以，思考技术与人类的关系，以及技术未来的关系，我认为我们需要尊重这一点：我们是谁？这是一些最基本的、真正旧石器时代的根源。

我们越尊重，就越好。一是尊重人类能动性。我真的认为，AI 的一个公共沟通问题是，我们太经常把 AI 当作句子中的主语，好像我们在剥夺人类的能动性。

像「AI 将治愈癌症」这样的句子——事实是，人类将利用 AI 来治愈癌症，而不是 AI 治愈癌症。还比如，「AI 将解决核聚变」事实是，人类科学家和工程师将利用 AI 作为工具来解决核聚变。

更危险的是，「AI 将夺走你的工作」。我认为我们真的需要认识到这项技术有如此多的机会来创造机会和就业，以赋予人类能动性。这是一个我非常关心的、非常重要的第一性原理。

第二个重要的「第一性原理」是尊重人类。每个人都希望健康，希望有生产力，希望成为社会的受尊重的成员。无论我们如何发展或使用 AI，我们都不能忽视这一点。

忽视这一点是危险的，是适得其反的。我认为这两件事本身就足以指导我们这项技术的发展。

Reid Hoffman：

我喜欢你深入探讨人类能动性的概念。你能再多谈谈能动性以及使人工智能以人为中心的重要性吗？以人为中心的人工智能意味着什么？技术专家和公司应该如何思考这个问题？

李飞飞：

你看，我们是在斯坦福大学以人为中心的人工智能研究所成立之前就认识的。我们谈论这一点，实际上源于这样一个深刻的信念：那就是任何技术、任何创新都是为了人类的善。这就是人类文明的发展轨迹——每次我们创造一个工具，我们都想用它来做好事。

当然，这是一把双刃剑，会有坏人利用这个工具。所以，即使是看到技术的阴暗面和工具，也推动我们更加努力地想要让它变得更好。这就是以人为中心的人工智能研究所的基本原则。

我们认为 AI——你、我，以及我们在斯坦福的朋友——把 AI 看作是一种如此强大的工具，它必须是一种文明工具。我们最好尽早给它一个框架，把人和人的利益放在这个框架的中心。

Aria Finger：

您在人工智能领域工作了很长时间，担任了许多不同的角色。我感觉有些人现在才刚刚开始了解人工智能。您对人工智能创新在当下的看法是什么——从我们目前所处的位置，开发者面临的问题等方面来看——您认为我们今天需要做什么才能达到解决这些问题的下一个层次？

李飞飞：

这是一个非凡的时刻，我认为这是革命性的转折点，原因在于应用。现在，人工智能可以被普通人和企业使用。我们这些早期人工智能先驱，在职业生涯早期所梦想的许多事情已经实现或几乎实现。

例如，图灵测试基本上已经解决。现在，图灵测试本身，我不会称之为衡量智能的终极测试了，但它曾是一个如此困难的尺度，以至于它是一个合法的尺度，现在它已经解决了。

还有个例子是自动驾驶，对吧？它还没有完全解决，但比 2006 年强得多。所以，我认为对这些模型的应用，使它们进入普通人和企业的手中，是人工智能革命的一个非凡阶段。

但我也非常清楚，Aria，我们生活在硅谷的泡沫中，因为我仍然认为全球人口仍在追赶人工智能的步伐。但我们确实看到了未来和未来的方向。

Aria Finger：

我认为许多听众都能理解你这个观点。但我们确实需要担心一些消极的后果，也希望我们能够将其引导到正确的方向。比如，从发展的角度来看，我们需要做些什么来确保人工智能进入积极的方向？如果您认为需要政府或跨部门合作，我很乐意听听您的想法。

李飞飞：

老实说，我认为我们可以做很多事情，我认为我们早就应该做了，当然现在并不晚。我们真的应该下定决心去做这件事。我认为我们应该做的一件事就是，把这些都基于科学，而不是科幻。

关于人工智能导致人类灭绝或世界和平的炒作言论已经太多了。无论是哪一方（笑），听着都更像是科幻而不是科学。

所以当我们思考如何制定人工智能政策、人工智能治理时——基于数据、基于科学事实、基于科学方法——这一点非常重要。

第二点是我真的相信，就像许多其他技术和工具一样，在应用中设置底线，人类可能受到影响的地方，就是治理精力应该集中的正确地方，而不是阻止上游发展。

回想一下汽车的早期。那时候并不安全，没有安全带，一开始甚至没有车门，没有限速等等。我们也学到了很多教训。

但是我们并没有去跟福特和通用汽车说「工厂别开了」，我们为安全带、速度限制等等制定了监管框架。

所以今天的人工智能也是类似的。它是一种深刻赋权的技术，但它也带来了危害。因此，我们应该关注的是，当人工智能应用于医学时，我们如何更新我们的 FDA 监管措施？当人工智能应用于金融时，我们如何设置监管限制？所以，应用是我们应该集中治理精力的地方。

最后还有一点重要的是，我们需要理解，人工智能的积极未来，来自一个积极的生态系统，这个生态系统需要私营部门。我认为，无论是大型公司还是私营部门的创业精神，私营部门都非常重要。

同时我们还需要公共部门，因为公共部门生产公共产品。在我看来，公共产品有两种形式。一种公共产品是那些由好奇心驱动的创新和新知识——无论是用 AI 进行核聚变，还是用 AI 治疗疾病，用 AI 来赋能我们的教师。所有这些不同的想法，其中很多都来自公共部门——ImageNet 就来自公共部门。

Aria Finger：

是的。

李飞飞：

公共物品的另一种形式是人。我们需要更多教育青年和公众，普及这项技术。事实上从 K12 到高等教育，公共部门承担着大部分的社会教育责任。这些都是我非常关心的 AI 治理和政策的不同方面。

Reid Hoffman：

实际上，你刚才提到的就是「AI4ALL」吧，因为你做这件事就是确保 AI 不仅仅是斯坦福的教授们、博士们的专属，对吧？

AI4ALL 是一个面向中学生的非盈利项目

李飞飞：

对。AI4ALL 是一个非营利组织，我和我的前学生和同事共同创立了它。那里的使命是为来自不同背景的 K-12 学生提供机会，通过大学暑期项目和实习进入人工智能领域。

我们知道人工智能将改变世界，但谁会改变人工智能？我们希望更多不同背景的人能够来到这里，通过使用这项技术、开发这项技术来为各种伟大的事业做出贡献。

我们一直专注于女性和来自农村或市中心里、历史上代表性不足的社区和背景的学生参加这些暑期项目。看到这些年轻人使用人工智能或学习人工智能，从改善救护车调度算法，到使用人工智能评估农村社区的水质，这真是太鼓舞人心了。

这仍然是一个小努力，但我希望它能够继续增长，因为让更多和不同的人参与人工智能的这种目标是非常重要的。

Reid Hoffman：

我认为人们应该关注的人类提升、人类状况的领域之一是人工智能在医疗保健方面的作用。您也参与过医疗保健的项目，请谈谈这方面的一些内容以及您所做的一些工作，以及对未来的一些展望。

李飞飞：

是的，出于许多原因我对 AI 在医疗保健中的应用充满热情。这是一个非常庞大的行业,从药物发现或诊断的基础生物科学一直延伸到临床诊断、临床治疗、医疗保健提供和公共卫生。

在美国，我们拥有的护士数量远远少于患者所需的数量。这份工作非常辛苦，我们面临着大量的护士流失，有一些惊人的统计数据。例如在一个班次中，一些护士平均要走超过四英里，仅仅是为了取药和设备。在一个班次中，我们的护士可以完成多达 150 至 180 项不同的任务。

与此同时，我们在对病重和非病重的患者进行分类时遇到了很多麻烦。总之，医疗保健的供给需要很多帮助，更不用说那些独自在家生活的老年人了化。我在过去 10 年多的时间里一直在研究智能摄像头，这些摄像头是非侵入性和非接触式的，以帮助我们的护理人员关注我们的患者。

如果他们在医院病床上，可以关注他们的活动以防止跌倒。如果他们在家里，关注他们的行为、情绪或者营养摄入。如果他们在手术室，护士必须每分钟关注一次仪器，以免它们在患者体内丢失。（能够解决这些问题）这种智能摄像头技术我们称之为环境智能，旨在帮助我们的医生和医疗保健工作者，以便我们可以共同提高对患者的护理质量。

Reid Hoffman：

现在 AGI 是一个被广泛讨论的术语——我想你可能在哪里说过——我甚至不确定 AGI 是什么，因为显然很多人对它的理解都不一样，这有点像他们自己的罗夏测试。所以，简单谈谈为什么（难以定义）、这个 AGI 讨论可能意味着什么吧？以及什么能让这个讨论更加理性，而不是一系列散乱的「它很棒了、它很糟糕、它将摧毁一切、它将帮助全人类」等等。

李飞飞：

我知道，Reid，我想这既是愉快的话题，也是令人沮丧的话题——我真心不知道 AGI 是什么意思。我认为这个术语大约在 10 年前从商业世界出现，当时 AI 刚开始成熟，商业兴趣也更多。

最初的术语——我尊重那种意图——是在 AI 中添加「G」，即「通用」，以真正强调 AI 的未来是更通用的能力，而不是非常狭窄的能力。

例如，今天的自动驾驶汽车，比仅仅检测树木的摄像头更具通用性，对吧？所以，这种对特定任务的狭窄关注与一套强大技术所能完成的任务做出区别，是有必要的。

我觉得我始终没有百分之百搞清楚的原因是，如果回顾历史，回到 AI 的创始人，约翰·麦卡锡和人工智能的马文·明斯基，他们的梦想是一个始于 1956 年夏天的希望，那就是制造能够思考和帮助人们做出决策的机器，最终甚至可以做事。

没有人会说，「我们梦想的是极其狭窄的 AI 任务，比如检测树木。」这个领域诞生的初衷是人工智作为思考机器，从这个角度来看，我们有着相同的梦想，我们有着相同的科学好奇心，我们有着相同的追求，那就是能够执行极其智能任务的机器。

所以我不知道是该称之为 AI 还是 AGI，对我来说，它们是同一件事。

Aria Finger：

在思考那种可以做事情的 AI 时，就像你说的，感觉最近随着语音和智能体 AI 的新改进，我们似乎越来越接近了，它似乎在为你做事情。你现在在生活中使用智能体有哪些特别有帮助的？或者你认为在接下来的几年里，智能体 AI 和语音的承诺将会改变事物的方式？

李飞飞：

我确实认为自然的语言分享知识的方式，让人们能够搜索、构思或学习，是一个非常强大的工具。即使对我自己来说，我也使用 LLMs 来尝试理解一个概念，尝试理解一篇论文，尝试提出一些我不知道的问题。

最让我兴奋的是看到人们和孩子们把它作为一个工具来提高自己的学习。我确实想强调，无论什么情况，保持人们的主观能动性，并给他们提供好的工具去学习，是赋权与他们。

我认为随着我们深化这些强大的工具——我自己也在做这件事——将会看到越来越多的协作能力，让人类能够更准确地使用这些工具去做事。我非常期待看到这样的未来发生。

Aria Finger：

我想你一定听过这样的说法，「哦，这些开发人工智能的人试图取代人类并摆脱他们，但我不想每天花 10 个小时盯着屏幕。」老实说，没有人比我更不想每天花 10 个小时盯着屏幕了，我认为人际互动是如此关键和重要——它们对一切都很重要，对于教学、社区、情感链接。你的自传里讲述了一个故事是关于你高中数学老师的，这就表明了人际互动的重要性。你能多说一点关于这一点以及他给你留下的难忘建议吗？

李飞飞：

这本书真正反映了我作为一个移民孩子的早期生活，我 15 岁时来到新泽西，空降在一个公立高中，不会说英语。那是我旅程的开始。

对我来说非常幸运的是，我很快就遇到了一位名叫鲍勃·萨贝拉（Bob Sabella）的数学老师，他用那种尊重和无条件支持的态度对待我。

他不仅是我的数学老师，而且在作为新移民的艰难青少年时期以及我的一生中，他都是我的朋友，直到他去世。他不是通过语言来教我，他从未坐下来对我说：「嘿，飞飞，人工智能将接管世界，让我告诉你，要以人为本的使用人工智能」。

他通过行动教会我，我们社会的意义、我们生活的意义，是我们彼此为对方做积极的事情。通过他的行动，我学会了尊重和提升他人是一种美好的事情，即使那是一个毫无头绪的孩子，不会说英语，也不知道在这个新国家该做什么。

所以，我认为这种慷慨、基本的善良和同情心是人类本质的核心。而且，对我来说，从他那里学到的最重要的教训是将人放在中心。

Aria Finger：

很美的故事。

Reid Hoffman：

你在行业之外有看到哪些进步或动力让你感到鼓舞？

李飞飞：

我实际上认为对能源问题的关注确实激励了我，即使是人工智能的发展也在推动这个非常现实的问题——能源，电力。我认为环境的改变，以及为全球人口提供能源的民主化，是如此关键。

Aria Finger：

最后一个问题，也是请你给我们留下一个最后的思考：你认为在接下来的 15 年里，如果一切按照人类的意愿发展，可能发生什么？以及，达到这一目标的第一步是什么？

李飞飞：

我希望看到知识、福祉和全球生产力的增长，特别是强调共同繁荣。我之所以强调这一点，是因为在技术方面，我是一个乐观主义者，我知道技术可以帮助人们，如果使用正确，它可以发现新的知识，可以帮助我们创新，可以提高我们的福祉。

但我认为有一点非常重要，我们需要一遍又一遍地学习这个教训——那就是当情况变化，我们需要认识到，我们需要分享这种繁荣，我们需要使这种福祉民主化。

Aria Finger：

绝对如此。我也希望如此。