首页   

Manus 爆火的背后:我们用 20 个问题一起搞懂 AI Agent

十字路口Crossing  · 科技媒体 AI  · 3 天前

主要观点总结

Manus是一个AI Agent产品,它的发布在国内和海外都引起了高度关注。本文探讨了Manus背后的技术发展和产品理念,并讨论了AI Agent对创业者和开发者带来的机会和风险。作者认为,AI Agent的落地场景主要集中在成本高的领域和离变现近的场景,如军事、国防和编程。同时,AI Agent时代将颠覆知识密集型或技能密集型行业,而不是劳动密集型行业。作者还强调了AI Enable的重要性,并建议个人应着重培养AI赋能能力以适应未来的AI时代。

关键观点总结

关键观点1: Manus的技术背景和产品理念

Manus是一个AI Agent产品,其发布在国内和海外都引起了关注。它结合了多种工具,并注重工具调用、数据复利和智能复利,以提供更好的用户体验。

关键观点2: AI Agent的落地场景和机会

AI Agent的落地场景主要集中在成本高的领域和离变现近的场景,如军事、国防和编程。这些领域的成本高昂,但AI Agent的引入能够极大地提高效率并降低成本。

关键观点3: AI Agent时代的颠覆和机遇

AI Agent时代将颠覆知识密集型或技能密集型行业,而不是劳动密集型行业。这意味着原本需要专业知识和技能的领域可能会变得不再需要,或者能够由非专业人士完成。

关键观点4: AI Enable的重要性

在AI时代,个人需要培养AI Enable能力,即如何更好地利用AI技术来解决问题,而不是仅仅依赖AI来完成任务。

关键观点5: AI时代的个人准备

为了适应未来的AI时代,个人应着重培养AI赋能能力,并寻找问题,因为解决问题的方法已经存在,且成本大幅降低。


正文

三周前,Manus 发布,一夜在国内刷屏。紧接着,在海外也受到了高度关注,Twitter 的创始人/CEO Jack Dorsey 也难得地发了一条推,言简意赅:「Excellent!」。最新一期的《The Economist》经济学人杂志,有两篇文章提 Manus,其中一篇还是专门写 Manus 的。


爆火之后,Manus 也引发了一定程度的争议。今天的播客中,我们不聊争议,因为我认为产品的准绳很简单:产品好,就是真的好。


loading


本周,我们请到两位朋友,来一起从 Manus 出发,用 20 个问题聊聊 2025 年最热的话题之一:AI Agent。这也是「十字路口」的「20 问」专栏第三期,前两期分别是 DeepSeek 20 问和 AI 视频大模型 20 问。


为什么是「20问」?因为面对像 Manus 这样的爆炸性产品,以及面对今年 AI Agent 这样的重要概念,我们需要一个结构化的思考框架。这 20 个问题不是简单的知识科普,而是经过精心编排的探讨路径:从历史脉络到技术突破,从现象解读到未来预测。我们希望通过这种问答形式,帮助十字路口的用户们在信息繁杂的当下,建立起对 AI Agent 清晰而系统的认知。尤其在 Manus 带来的热度稍退之际,我们展开这样的探讨,能更理性、全面地,不被短期情绪所影响。


👬🏻 本周的第一位朋友是郑灿:线性资本的董事总经理。郑灿从去年上半年就开始关注 AI Agent,也在线性资本公众号上发表过不少关于 Agent 的观点和文章。技术背景+投资一线,郑灿接触了大量尝试在 Agent 领域创业的团队,有着一手的信息和洞察。


👬🏻 第二位朋友是鸭哥:Samsara 的应用科学家,哥伦比亚大学博士,曾在 Pinterest / Microsoft 等公司工作,发表过近40篇国际顶会期刊论文。鸭哥在 Manus 发布后写了多篇高质量的关于 AI Agent 的内容,比如「Manus爆火的背后,Agentic AI产品如何构筑持久的竞争优势?」。


loading


在本周播客开始前,需要做一点利益相关声明。koji 是蝴蝶效应(Monica/Manus 母公司)的顾问;也是他们上一家公司的早期天使投资人。



微信收听播客:


小宇宙收听播客:

loading


loading

AI Agent 的定义与本质

🚥 Koji

感谢两位来十字路口,分享这期硬核内容。我们从第 1 个问题开始:当讨论 AI agent 时,我们到底在讨论什么?AI agent 的定义究竟是什么?


👦🏻 郑灿

Agent 实际上是技术界长期存在的概念。

从我的角度看,agent 最根本的能力是「autonomous」—— 能够自主行动。无论是单个 agent 独立完成任务,还是多个各具专长的 agent 协作解决问题,自主性都是其核心特质。

要实现自主性,agent 需要具备几个关键能力:感知能力,以获取外界输入;工具使用能力,用于执行任务;以及 planning 能力,特别是在处理复杂问题时,需要长程规划能力。这些需求对底层模型提出了一系列要求,包括感知能力、多模态输出能力、工具使用能力和长程推理能力。

另一个重要特质是 self-evolve(自我进化)能力,即 agent 能从过去的成功与失败中积累经验,不断改进自身。从根本上说,对 agent 的要求与对人的要求类似。包括 agent 的能力设计和架构要求,很多都源自人类专业分工的启发。


🚥 Koji

记得郑灿去年 6 月的文章曾提到「1000 个人眼中有 1000 种 agent」,这确实是个非常宽泛的概念。

即便 Manus 发布似乎定义了 agent 的新范式,但对 agent 的讨论仍然相对模糊。我们先把定义问题放一边,进入第 2 个问题:请鸭哥带我们复盘一下 2024 年 agent 领域的发展脉络和重大突破。


👦🏼 鸭哥

这是一个具有重要意义的问题。

2024 年 Agentic 的发展主要体现在三个方面:定义逐渐成熟、产品开始爆发、技术平台加速发展。

从定义角度看,2024 年初 Agentic AI 概念众说纷纭,如同郑灿所说「1000 个人眼中有 1000 种agent」。到 2024 年底,其定义基本收敛至两个核心要素:工具使用能力与自主决策能力。尽管各家仍有不同解释,但基本定义已比年初清晰许多。

产品领域主要呈现两大发展方向,吸引了众多创业公司和投资者关注。第一类是调研型产品,如Gemini、OpenAI、Perplexity 等都推出了名为「Deep Research」的产品,它们号称通过 Agentic 方式模拟人类浏览互联网并提供深度分析。第二类是生成型产品,包括 Cursor、Windsurf 等 human in loop (人机交互循环)的 agent 编程产品,Devin 等更加自主化的构建工具,以及 Gamma 等演示文稿生成工具。在 2024 年,这两类产品均实现了快速发展与规模增长。

技术层面,Agentic AI 的构建工具也开始爆发,尤其在 orchestration(编排)方面。有趣的是,每种工具背后都代表了团队对 Agentic AI 的独特理解。例如,微软的 AutoGen 作为最成熟的 agent 开发框架,强调以异步订阅式消息流模式表达所有功能;LangChain 演变而来的 LangGraph 则强调用图结构描述所有 agent;而 Hugging Face 的 SmolAgent 则特别强调所有 agent 均可通过 coding  agent表达。无论是定义、产品还是技术层面,Agentic AI 在 2024 年都展现出更多确定性和活力。

loading

GAIA:衡量 AI Agent 能力的标准

🚥 Koji

我们的第 3 个问题是在 Manus 发布时,他们提到一个似乎成为衡量 agent 重要标准的 「GAIA」。

麻烦鸭哥给大家介绍一下 「GAIA」是什么标准?为什么大家都选择它来衡量AI agent?


👦🏼 鸭哥

这是个相当有趣的问题。GAIA(General AI Assistant)是 2023 年底由 Meta 和 Hugging Face 主导提出的基准测试,这个名称源自希腊语,意为「地球」。

其背景是当时 AI 发展出现一股潮流,诸如「GPT-4 完成某入学考试得分很高」或「通过律师资格考试」等。这引发了研究人员思考:AI 是否应该朝「做题家」方向发展?考试成绩优异是因为记忆力强、能背诵法律条文和常见题型,还是真正具备举一反三的推理能力和高度智能?基于此,GAIA 应运而生。

GAIA 测试重点不在于记忆,而是强调推理能力、多模态网页浏览及其他工具使用能力。

这些任务对普通人来说非常简单,正确率可达 92%,但当时最先进且能调用工具的 GPT-4 也仅能达到 15% 的准确率。因此,它成为衡量 AI 智能程度的基准,尤其适合评估 Agentic AI 的综合能力。

除了测试内容设计,GAIA 还面临数据泄露挑战。

由于 AI 训练持续进行,若将测试题目及答案公开,可能被纳入训练数据,导致 AI 仅是记忆答案而非通过推理能力解决问题。为避免此情况,GAIA 将 400 多道题分为两部分:300 道测试集题目(仅公布题目不公布答案)和 160 多道验证集(同时公布题目和答案)。前者用于最终测试,后者用于参数调优。

为实现测试过程自动化,GAIA 采用客观题形式,可通过程序验证而无歧义。其设计包括题型设计、数据泄露防护等,使其成为衡量 Agentic AI 能力的优质基准测试。

这就是为什么众多公司和产品都在 GAIA 上测试自身 Agentic AI 能力的原因。然而,GAIA 并非完美测试,存在一些值得注意的问题。首先,由于验证集和测试集的区分,在解读各公司公布的结果时需留意是基于哪个数据集。

例如,OpenAI 和 Manus 宣称的「世界第一」成绩实际是在 160 道验证集题目上的结果,他们并未向官方提交测试集结果(即「打榜」),因此这些分数未出现在 Hugging  Face 的排行榜上。

这引发了一定争议,但从企业角度看也可以理解,因为「打榜」对公司而言只是了解自身能力或营销手段,而非最终目的。

另一方面,GAIA 测试相对简单,多为一两步就能解决的场景,无法充分测试现在日益流行的长期记忆和大上下文窗口 AI 的优势。例如,我个人认为很有前途的「endless learning」(花费数天或数周彻底理解复杂代码库或知识库)等前沿方向,GAIA 就显得力不从心了。


👦🏻 郑灿

对,鸭哥说得很对。GAIA 这类标准本质上是为了衡量 AI 解决复杂问题的实际能力。

与「做题家」模式相比——即通过背诵所有题目获得高分——GAIA 的提出正是为了解决 「AI 会做题但不会做事」的问题,或者说「会做见过的题,不会做没见过的题」的局限性。GAIA 是一个相对完整的测试集,全面评估 agent 的多方面能力,包括多模态理解、工具使用和长程规划能力。

类似的还有专门测试 AI 推理能力的 ARC 测试。这类测试的最大特点是完全无法通过记忆答案解决问题,因为每道题型都各不相同,但对人类来说却非常简单。例如给出四个不同形状,让你推测第五个形状应该是什么——类似我们小时候做过的智力测验。这类测试正是为了解决模型实际能力与榜单表现之间的差距,希望能够测出 AI 的真实能力水平。

loading

Agent 领域的统一协议标准

🚥 Koji

好,我们继续到第 4 个问题,关于 MCP。Anthropic 在去年 11 月发布 MCP 后,它迅速成为了 agent 领域的某种行业标准。

这里有两个问题:第一,请鸭哥给大家科普一下 MCP 是什么;第二,为什么它能在短时间内取得如此成功?


👦🏼 鸭哥

要回答 MCP 是什么,我们需要先了解为什么会出现 Model Context Protocol 这个概念。

最直接的原因是市场上存在大量大语言模型,但各家对工具调用的格式标准不一。

例如,OpenAI 使用基于 JSON 的格式告诉 GPT 可以调用什么工具、输入格式及类型等。Anthropic的格式与之类似,但细节上有所不同——如果直接将 OpenAI 的代码迁移使用,很可能会运行失败,尤其是对 reasoning model 的安全处理方式有细节差异。而 Gemini 则采用完全不同的格式。这导致开发者若想让不同的 LLM 使用同一工具,需要记忆和开发多种彼此不兼容的工具描述,形成明显的开发痛点,拖慢产品上线节奏。

为解决这一问题,各家都在寻求统一格式的方法,希望像 HTTP 协议一样,用通用协议统一模型调用工具的核心交互方式。这既是竞争的入口标准,也确实解决了开发者「一次编码、到处执行」的需求,这就是 MCP 背后的核心动机。

实际上,MCP 并非市场上唯一的此类协议。例如 Open WebUI 使用基于纯 Python 的协议,PydanticAI 基于 Python 的框架实现协议。MCP 是 Anthropic 对标准协议给出的答案。要讨论 MCP 的竞争优势与劣势,我们需要先明确此类协议的评判标准。

具体而言,成功的协议应包含四个维度:

  • 第一是适当的抽象度(Abstraction),这是工具调用协议最初的动机——希望无需改动代码即可无缝适配各种流行 LLM。

  • 第二是表达力(Expressiveness)必须足够强,无论是使用工具、生成提示词模板,还是希望 LLM 在调用工具时获得反馈,协议都需要支持这些功能,否则开发者可能会选择更灵活的协议。

  • 第三是易用性。以 LangChain 为例,虽然它确实提供了抽象和强大的表达能力,但抽象程度过高(over-abstraction),以至于添加自定义功能时常需深入追踪大量抽象类才能定位修改点。

  • 第四是可调试性,这要求协议具有良好的可视化或简洁结构,以便快速定位问题。

MCP 的成功在于它在这几个维度上都取得了良好平衡。

它提供了足够的抽象度而不过度抽象;表达力足够强,不仅支持资源、提示词、工具等功能,还能通过 sampling 等机制让工具反向调用 LLM;同时保持了简洁而非臃肿难用。总体而言,技术上它是一个合格的协议。

另一个重要因素是 MCP 背后有 Anthropic 这样资源雄厚的强势公司支持,对开发者和生态伙伴来说意味着更深刻的领域洞察和更稳定的支持。当市场上没有技术优势压倒性的协议时,人们倾向于选择有资源且可靠的产品,最终形成事实标准。这是标准之争中的常见现象——并非因为 MCP 技术上最完美,而是它抓住市场先机,凝聚生态力量,其认可度带来正向循环,从而占据市场领先地位。

需要注意的是,尽管 MCP 现在被广泛使用,技术上仍有改进空间。其中过度抽象和调试困难是显而易见的痛点——虽然自带 inspector 功能,但相比其他协议,问题定位能力仍有不足。目前说MCP「赢了」,更多是指它抓住了当前时机和市场共识,在竞争中取得先机。如果能持续迭代升级并倾听社区反馈,有可能真正巩固为行业通用协议;否则,未来仍可能出现其他有力竞争者。

loading

Manus 的核心突破与创新

🚥 Koji

聊 MCP 让我想起 《集装箱改变世界》这本书(比尔·盖茨年度书单之一)讲述了一段引人深思的标准化历程。集装箱的国际标准是经过大量商业与政治博弈后形成的,这一进程始于 20 世纪 50 年代,与新中国成立的时间相近。

在此之前,海运、铁路运输相对随意,货物常以麻袋等非标准化形式装载。50 年代开始,一些公司尝试推行统一尺寸的集装箱,但各方都争夺标准的制定权。经过约 30 年的博弈,到 80 年代,国际货运标准逐渐统一,如今轮船、火车、卡车均采用同一套集装箱规格体系,这种和 MCP 相似的标准化过程也类似秦始皇统一度量衡,有效降低了贸易摩擦,推动了全球化进程。

回到我们的话题,第 5 个问题想请教郑灿:AI Agent 被视为 AI toC 产品在 chatbot 之后的交互范式革命。在你看来,以 Manus 为代表的 AI agent 在推理能力上相比现有的 LLM(如 GPT-4o 或 Claude 3.7)有哪些关键突破?


👦🏻 郑灿

我们首先需要厘清几个概念。

Manus 作为一个 agent 产品,其规划、执行到验证的各项工作实际上都依赖于底层模型,其推理能力本质上来源于模型本身。这与我们讨论 OpenAI 时常见的情况类似——我们容易将模型与 ChatGPT 产品混为一谈,但它们实际上是两个不同的概念。

从去年到今年,模型在推理能力上发生了巨大变化。去年年底我们曾提出需要加强模型的推理能力,随后市场上出现了包括 o1、DeepSeek、Anthropic Thinking 在内的多款强推理能力模型。正是这种推理能力的提升,使得 Manus 这类产品能够实现长程推理能力,能够将任务从头到尾完整规划——这点从其 task list 中可以清晰看出。

当然,今天的模型仍有不足之处。如果一个十步流程中每一步都有失败的可能性,那么整体任务完成的成功率将大幅降低。Manus 的重要贡献在于:如何确保在长流程过程中不会偏离轨道。除了规划和执行,「反思」是其中关键环节——在底层能力尚不完全确定的基础上,以相对确定的方式达成目标。

相比去年,现在已有很大进步。去年可能出现规划错误、反思错误、重新规划又错的情况,但每一步成功率哪怕只提高 5%(比如从 85% 到 90%),最终失败率也会大幅降低,因为这是多个概率相乘的结果。

loading

Manus 的用户体验与产品价值

🚥 Koji

明浩老师在「屠龙之术」播客中有一期内容叫「Manus 没有秘密[1]」,这个标题非常贴切。Manus 团队从一开始就主动与公众分享他们的设想和操作细节。

第 6 个问题想请教鸭哥:你曾在多处提到 Manus 给你带来启发,这些启发是什么?其中哪些最令你惊艳?


👦🏼 鸭哥

在回答这个问题前,我想先明确 Manus 哪些方面并非如某些自媒体所渲染的那样令人惊艳。

Manus 的出现并非毫无迹可循,相反,2024 年我们已经看到两类相似产品:一类是像 Deep Research 这样的调研类产品,另一类是像 Cursor 或 Devin 这样的代码生成类产品。

从功能角度看,Manus 简单来说是将这两类产品融合在一起。但这种融合比表面看起来更加重要,因为它彻底改变了用户体验。

举例来说,如果没有 Manus,我想进行调研并将结果可视化,就需要思考如何拆解任务,让每个子任务足够独立以分配给 AI 完成,同时考虑每个子任务适用的工具以及子任务间的接口设计。

具体来说,我可能会将调研交给 OpenAI Deep Research 完成,获取报告后复制到 ChatGPT 进行分解,生成面向 Cursor 的 prompt,然后将这些 prompt 提供给 Cursor 生成代码,最终运行程序得到可视化结果。

而有了 Manus 后,我需要思考的内容大幅减少,只需将所有需求一次性提交给 Manus,主要精力集中在让其了解我的思路、背景和目标,剩余的问题分割与执行工作则交由它完成,使用体验得到显著提升。

另一方面,Manus 产品完成度很高。我之前也尝试过类似的 AI 工具进行调研,但一个主要痛点是在抓取数据时常被识别为机器人而被封禁。然而 Manus 以及类似的 Devin 都克服了这一问题,即使面对像 Zillow 这样有严格反爬机制的公司,或知乎这样的平台,它也能正常抓取数据,大大提高了整体可用性。

因此,最令我惊艳的是 Manus 出色地实现了 Agent AI 的初衷:让用户专注于定义问题,而 AI 自主执行,使用户能以最短时间、最简链路达成目标,这正是作为用户最关心的事情。


loading



🚥 Koji

许多人质疑 Manus 是否真正创新。第 7 个问题想请教郑灿:在你看来,Manus 是否有创新?如果有,其核心创新是什么?


👦🏻 郑灿

从简单角度看,将众多工具和能力融合到一起,提供前所未有的用户体验,这本身就是一种创新,也正是产品最需要的创新类型。

如鸭哥所述,当用户面对复杂工作流时,可能需要调用多种工具——网页抓取、图像理解、图像生成等,其中抓取环节还可能涉及反爬机制,需要识别验证码等。将这些不同工具整合起来,并确保流程不出错地达成目标,这展现了极强的产品力。

产品力的核心是让用户以最简单的交互方式恰好达到预期效果

Manus 的核心贡献或创新正是实现了「无需动手」(hands-free) 就能完成复杂任务,提供了前所未有的体验。

值得注意的是,虽然大模型是当今产品的核心,模型能力的提升确实提高了 Manus 这类产品的上限,但大模型本质上仍不可控——它每一步都有可能出错。当我们基于不可控的技术提供产品时,不能简单地以「OpenAI 或 GPT 出错了」为由解释产品失败,用户无法接受这种回应。这背后需要大量工作,每种新产品形态都需要有人先行探索。Cursor、Lovable、bolt.new 等产品也提供了类似价值和创新,尤其是在它们刚推出时。Manus 的创新属于同一类型。


🚥 Koji

使用 Manus 时,我有两个瞬间感受到它真的像一个人,一个真正的 agent。

第一个是它会让你看到它在做什么,像一个同事般详细汇报工作进展。你可以看到它在思考、推理、执行任务,甚至可以看到它创建了待办事项列表,完成一项就划掉一项。这给人一种同事在认真负责地完成每个细节的感受。

第二个是在任务进行过程中,可以随时与 Manus 对话。Manus 完成一项任务可能需要 10-30 分钟,如果等待不耐烦,你可以询问它进展如何。它不会停下手头工作,而是像同事一样回应:“别着急,我正在做什么什么,大概还需要多久"。这两个瞬间让我感到很惊喜。


👦🏻 郑灿

Manus 与 Deep Research 的区别在于,它不仅能完成 Deep Research 那样的研究工作,还能执行许多其他生成性任务。


🚥 Koji

正如鸭哥在第 2 个问题中提到的。Agent 产品有两类主要用例:调研类和生成类。调研类(如报告生成)是 Deep Research 和 Manus 都能完成的,而在生成类方面,以往主要是生成代码或 PPT,现在 Manus 也能胜任。这也是 Manus 作为通用型 AI agent 初登场时受到高度期待和好评的原因之一。


👦🏻 郑灿

确实,很多令人印象深刻的工作本身就需要生成能力。

loading

AI Agent 的三种复利特性

🚥 Koji

进入第 8 个问题,想请教鸭哥:Manus 展示了 AI agent 具有复利特性,你在文章中提到了三种复利——工具的复利、数据的复利和智能的复利。能否详细解释一下?


👦🏼 鸭哥

刚才讨论的 Manus 背后有许多值得分析的元素,其中尤其有启发性的是「复利效应」(compound effect)

Agentic AI 之所以引人瞩目、值得投入,主要就是因为这种复利特性。复利通常指的是具有积累效应的事物,投入越早,后期回报越大,呈指数级增长。

Agentic AI 在三个维度上具有复利特性:工具的复利、数据的复利和智能的复利。这三个维度并非简单相加,而是像乘法一样相互放大。

首先是工具的复利,这是最容易理解的,也是 Manus 好用的关键。Agent 的核心能力在于调用工具,但能调用两个工具与能调用十个工具的 agent 所能提供的价值完全不同。当为 agent 添加新工具时,如果它已有丰富的配套工具,新旧工具间的组合将带来爆发式的体验提升。例如,当 agent 最初只能搜索和写代码时,添加一个生成报告的插件可能只是将现有结果进行包装;但如果 AI 已经掌握了可视化、幻灯片制作、网站构建等能力,此时添加报告生成或图像搜索工具就能引爆众多创作方式,实现从调研到内容发布的一站式服务。Manus 的成功很大程度上得益于工具的复利。

但是, 仅靠工具复利存在一个问题:容易被竞争对手模仿。这就涉及到第二个因素:数据的复利

这里的数据不是指大模型预训练的海量 token,而是指 agent 与用户长期协作过程中沉淀的知识库。这些数据一旦整理外化为显性文档,就能让 AI 在后续交互中更快锁定问题、减少弯路,更好理解用户需求。

这类似工厂中的老师傅能一拍机器就知道问题所在,而新手则需逐个检查零件且未必能找到原因。老师傅凭借长期积累归纳的工作流程、产品历史和方案经验,大大提高了问题排查效率。对 AI 来说,这给用户的感觉是「AI 很懂我、与我有默契」,形成正向循环:agent 越用越顺手,因为它学到更多背景知识,用户也越愿意分享更多数据,进一步提升产出效果。这种知识库积累是更重要、更难构建的复利模式,如果产品能在端到端形态中充分利用积累这些数据,自然会形成核心壁垒。

最后一点是智能的复利,这常被忽视但同样重要。

Agentic AI 的自主思考程度会随着工具和数据的增长而放大。

推理能力较弱的模型可能只能机械地执行预设指令搜索网页、罗列结果并拼接报告;但如果推理和举一反三能力足够强,它就能根据搜索结果及时调整策略,如优化关键词或预判用户可能需要的额外资料和分析维度,自主决策发掘更多资源。真正智能的 agent 甚至能通过对话式交互修正目标,理解用户表面问题 A 背后实际关注的问题 B。

这种高层次思维能力在 o1 pro 或类似模型中已初露端倪,它像催化剂一样提高工具和数据带来的增长效率。如果企业有能力进行这种级别的 LLM 研发或微调,就能构建工具调度、知识积累和智能提升的良性循环。

归根结底,这三种复利相互激发,形成乘法效应。更多工具产生更多可沉淀数据,更丰富数据支持更高阶智能训练和应用,而提升的智能又提高多种工具的组合效率。因此,优秀产品在竞争中应尽可能位于复利曲线的右侧,站在复利快速显现的节点上,有效构建壁垒并实现爆发性增长。


🚥 Koji

这个总结非常全面。看到鸭哥发表的文章后,我特别想邀请他录制这期播客。他在短时间内犀利地总结了如何在 AI agent 领域构建壁垒和护城河的关键点。


👦🏻 郑灿

Koji,据我所知,你是肖宏之前公司的天使投资人和顾问,特别好奇从你的角度,为什么是他们做出了 Manus?


🚥 Koji

其实我一点都不意外,从他们构思到最终发布,唯一让我惊讶的是 Manus 如此火爆,引发了众多后续讨论。

为什么不意外?因为即刻上有位名叫 Erix 的同学(曾在蝴蝶效应公司即 Monica 和 Manus 工作过)的一条动态很好地解释了为什么是肖宏团队、hidecloud 和 Peak 这个核心团队做出了 Manus:他们一直在一线积极行动,热情尝试各种可能性。

回顾过去,如 Erix 所提到的,他们在前年(2023 年)9-10 月就已在国内尝试各种 agent 方案。其中一个最佳实践是 to-do list 的 Markdown 形式,如今我们看到 Manus 一开始就会进行任务规划,列出 to-do list,使其在完成复杂任务时井井有条、步骤严丝合缝,就像一个工作能力极强的人在完成任务。

去年(2024 年)3 月,Monica 团队又开发了类似 GPTs 平台。整年他们都在尝试开发类似 Arc 的浏览器(虽然最终因未找到合适的商业竞争角度而未发布),但这过程中积累了大量浏览器相关技术,为 Manus 给 agent 配置虚拟机操作浏览器奠定了底层架构基础。前年 11 月,Monica 就已开始支持联网搜索,为 agent 获取网络信息的能力打下基础。

去年 7 月,Monica 团队推出了 Roast 产品。这可能鲜为人知,但在海外成为一个刷屏的营销活动,类似 Twitter Personality 的增长项目,迅速实现病毒式传播。我相信团队从中获得了社交媒体流量增长的宝贵经验。从产品发布到突破 100 万 UV 用时很短,我当时见证了这一过程,确实令人兴奋,很久没见过如此刷屏现象。

上述项目很多且各不相同,有大有小,单个看起来似乎薄弱,像是一个个分散的积木。但当这些积木在当前市场窗口期组合在一起,技术各方面不断进化成熟,边界上的积木搭建起来,就形成了强大的组合创新能力。这也如王兴常说的:「不要 play in the boundary,而要 play with the boundary」——不要在边界内玩,而是要努力在边界上玩。

这解释了 Manus 虽是「套壳」产品,但壳本身有其价值。他们知道应该采用哪些最新的边界技术积木,搭建出用户体验良好、问题解决能力强的产品。总结来说,Monica 团队既有前瞻性认知,又有极强的执行速度,因此能在关键窗口期推出这样突破性的产品。


👦🏻 郑灿

理解了。一个很有趣的点是你提到他们开发了多种工具。Monica 产品中就能看到许多工具,这对他们开发 Manus 应该有很大帮助。

Manus 需要工具调用能力,而 Monica 团队已经开发并调校了大量工具,这是很少有其他公司能做到的,确实是他们的一大优势。

loading

Less Structure, More Intelligence:产品设计哲学

🚥 Koji

这让人想起乔布斯常说的「connect the dots」(连接点)。当你经历许多后,回头看会发现所做的事情成为一个个点,而在某个时间窗口,这些点突然能够连接起来,产生化学反应,催生出不凡的产品。确实很有意思。

我们继续第 10 个问题,想请教鸭哥:我们知道 Manus 团队在产品开发中有一个理念叫「Less Structure, More Intelligence」(更少的架构,更多的智能)。能否请你解释这一理念及其含义?


👦🏼 鸭哥

这是一个很好的问题。这句话代表了实现 Agentic AI 权衡取舍的一种方法。

表面上看,它意味着当我们给 AI 的工作流程提供更少的结构化约束时,AI 会展现出更高的智能化水平。例如,在 AI 执行任务过程中,我们尽量依赖它自身的认知和推理能力,而非预先通过脚本、流程图或状态机等逻辑去限制它,从而让 AI 表现得更智能。

但我认为这背后还有另一层含义,是一种反向的因果关系:

对于能力较弱的模型,我们可能确实需要更多结构化约束防止其偏离轨道;但当模型变得更智能时,我们必须减少结构化约束才能发挥其潜力。

因此,根据不同的技术(LLM)和产品目标,我们应当在结构化约束方面采取不同的取舍

这与 Agentic AI 的发展历程密切相关。AI 发展早期,我们通常采用高度结构化的思路,例如 RAG(Retrieval-Augmented Generation)就是典型案例。其工作流程是预设的:第一步检索信息,第二步构建 prompt,第三步让 LLM 生成内容。这种预先定义好的 prompt 模板、步骤列表或状态机的做法优势明显——更可控,尤其是在早期 LLM 不太会主动调用工具时尤为重要。但缺点也很明显:与现在的 Agentic AI 相比,它牺牲了模型的创造力,对开放场景的应对能力也有限。

而现在的 Agentic AI 之所以有效,核心在于允许 AI 自主决定下一步行动:是换一个关键词继续搜索,还是基于当前搜索结果开始回答问题,或者直接告知用户无法找到相关信息。

但「Less Structure」并非意味着仅提供更好的结构化支持就能让 AI 自然变得智能。背后需要大量工作:除了针对工具调用进行更多训练的 LLM 外,还涉及许多产品方面的知识,如记忆处理、上下文窗口管理、为 AI 提供足够信息以合理选择最适合的工具等,这些都需要深厚功力。

一旦做好这些,用户体验将上升到新台阶,我们自然会向「Less Structure」方向发展。当达到这一阶段,用户的感受将是在与一个能独立思考的智能体沟通,而非按部就班的脚本互动。

因此,「Less Structure, More Intelligence」更多是指当模型智能水平和产品力达到一定阶段后,结构化约束自然会向更少的方向演进,从而带来更好体验,而非强行减少结构化支持就能使产品显得更智能。这本质上是一种取舍平衡。


👦🏻 郑灿

多模型能力不断提升这一现象实际上提出了一个有趣的思考点。

我们经常被问到:当模型持续迭代升级,开发应用的团队该如何应对?今天构建的应用是否明天就会被淘汰?对此,核心思路应该是专注于发挥模型能力,而非限制或控制模型能力。从策略角度看,当模型能力增强,产品质量也随之提升,便无需过分担忧模型升级问题。

这种理念本质上反映了「less structure,more intelligence」的哲学。若投入大量精力去构建模型工作的结构性框架,一旦模型智能提升至无需这些结构时,你的工作价值就会被削弱。因为智能模型本身已具备安排工作结构的能力。这是这种方法论背后的基本认知,我非常认同这一点。


🚥 Koji

当新版大模型不断发布,模型能力持续进化时,作为创业者是感到兴奋还是焦虑?这实际上是检验自身产品是否在模型之外拥有独立生存空间的绝佳问题。


👦🏻 郑灿

确实,Manus 本身就是模型能力提升的受益成果。换言之,若没有春节后新模型的发布,在春节前可能无法实现这样的用户体验。


🚥 Koji

我们第二部分讨论了 Manus,现在进入第三部分,探讨 AI Agent 的竞争与行业格局。

首先想问郑灿,你估计中国和硅谷的大厂中,哪家会最先推出类似 Manus 的 AI Agent 产品?


👦🏻 郑灿

这是个好问题。如果讨论的是针对半专业应用的工具类 AI Agent 产品,我首先想到的是字节跳动。

据我所知,字节可能已经发布了类似产品,虽然我尚未亲自体验。若要给出预测,字节是最合理的选择,因为他们在半专业 Agent 工具领域已有丰富积累,如扣子等产品都属于类似方向。

另一个明显趋势是,几乎所有模型厂商都推出了自己的 Deep Search 相关产品。不仅是模型厂商,许多大型 AI 初创企业也有类似布局。Google 推出了 Deep Research,Perplexity、xAI 等公司也都有相应产品,OpenAI 的工具本质上也是一种研究导向的 AI Agent。我使用 Manus 更多是在利用这一功能,因此我认为各家公司都可能进入这一领域。

但对于 Manus 擅长的其他具体任务,比如美化报告、生成图表等,显然不是模型公司的目标。他们不太可能深入这些应用场景,OpenAI 所做的仅是提供工具箱,让开发者能更好地构建这类应用。这确实也不应该是模型公司(尤其是海外模型公司)的核心目标。


🚥 Koji

确实,从 OpenAI Manus 到 OWL 等项目,已有多个开源框架涌现,市场非常活跃。我也期待在这一领域看到更多创新产品和交互方式的突破。

接下来讨论第 12 个问题:Manus 发布前 AI Agent 已经很受关注,发布后必然会吸引更多创业者。根据你与初创公司的交流,目前 AI Agent 创业主要集中在哪些方向?


👦🏻 郑灿

我观察到几个明确方向:coding(编程)、sales(销售)整个流程等,例如 leads generation 等产品就非常典型。

这些领域有几个共同特点:首先,传统方式成本高且需要大量重复劳动,而且通常需要具备专业知识的人员,并非普通低薪工作者能完成的任务;其次,这些领域价值高或直接关联收益。编程虽然不一定直接关联收益,但价值高;销售则直接关联企业收益和价值提升。这些方向是创业公司重点关注的领域。

另一个特点是易于验证或具有一定容错性。编程是相对容易验证的工作,可通过调试确定质量;而示例生成(例如生成 100 个示例)即使有 10 个不完美,整体效果可能仍然能接受。因为当前模型仍有很大提升空间,工作结果存在一定不确定性,这使得那些对成功率要求极高的应用场景可能尚不合适,或仍处于探索阶段。

调研报告类工作也是类似情况。如果一份报告中有某些问题,或一系列报告中某一份质量欠佳,用户通常能够接受,因为 AI 已经节省了大量成本,用户只需要要求重做有问题的部分即可。这些都是市场能接受的应用方向,也是我们看到创业公司较多布局的领域。


🚥 Koji

理解了。下面进入第 13 个问题:既然有这么多人在 AI Agent 领域创业,从长远看,做 Agent AI 产品的核心竞争点是什么?哪些要素可能构成真正的竞争壁垒,哪些要素不足以成为护城河?


👦🏼 鸭哥

这是个很好的问题。我也花了很多时间思考:如果我是 Manus 的竞争者,如何最快速地复制它?如果我是 Manus 团队,如何构建护城河防止被复制?这个问题的答案可以归结为我们之前讨论的三种复利模式。

首先从工具复利角度,要获得竞争优势,需要尽早构建多种工具,快速到达曲线右侧。但这一点很容易被复制,因为现在大家都有 Agentic 的编程工具(写代码很容易),且如果我拥有比 Manus 十倍的人力,由于每个工具实现彼此独立,抄袭起来简单快速。因此,单纯堆积工具的广度和数量并不能构建有效竞争优势。

从数据复利角度,护城河会更有效。以 Manus 为例,当用户提供反馈时,它会将这些信息记录到自己的数据库。比如公司内部可视化通常使用蓝色主题,Manus 在被纠正一次后,会将这一知识记录下来,下次自动应用。当用户与 Manus 磨合一段时间后,再使用其他竞争对手产品时,会感到不适应,因为需要重新培训产品理解自己的偏好。

许多细节无需特别交代,Manus 已经形成默契,了解用户需求,而其他产品则一无所知。因此,如果 Manus 能有效积累数据,这种默契越多,用户迁移到其他产品的难度就越高。AI Agent 产品若能有效积累和外化用户数据(如个人偏好、团队流程、历史决策),才真正迈入数据复利阶段,构建有效竞争力。

第三是智能层面。无论是微调模型还是大规模模型推理,都对资源、资本和系统优化能力要求较高,通常由资源雄厚的公司主导。但高智能如同乘数因子,即使有微小提升,也能对数据和工具方面产生反向补强。小公司并非完全无路可走,例如针对特定领域进行微调,也是有效竞争途径。

从上述讨论可见,工具方面的护城河不太可靠,智能方面需要大量资源,而数据方面可能是最简便可行的护城河构建方法。

但数据本身可被复制,因此数据沉淀之外,更重要的是沉淀方法论和流程——如何系统性地将隐性知识外化、如何进行结构化沉淀和高效数据管理,这些是难以复制的能力,类似企业文化。一旦形成强大的数据管理和知识外化方法论体系,即使竞争对手复制工具、挖走人才,也难以在短期内复制这种隐性组织能力。

因此,AI Agent 产品长期竞争中,最难攻破的并非数据或智能规模本身,而是数据和工具使用的体系化组织能力

loading

AI Agent 创业机会与行业格局

🚥 Koji

我们刚才已了解目前 AI Agent 创业团队的主要方向,鸭哥也分享了核心竞争力构建思路。

现在请郑灿就第 14 个问题补充:今天成立新创业公司,如何抓住 AI Agent 的机会?除考虑护城河外,你有什么建议?


👦🏻 郑灿

我理解问题是关于如何进入 AI Agent 领域创业。首先,对所有创业者甚至所有人而言,时代最大红利是众多可用的 AI Agent 工具,充分利用它们至关重要。但如果讨论如何在 AI Agent 领域创业,我有几点思考。

第一,正如鸭哥所言,找到特定场景后,思考哪些环节特别需要人工指导,如何收集这些指导并将其外化,融入工具中成为工具智慧。我们常问:在某领域工作两年的经验与新人相比有何区别?产品在哪些方面毫无争议地更强?答案往往在这些特定场景中。

另一点是,许多提供服务的企业现在应考虑将服务转化为 Agent 提供的形式,或在寻找场景时关注原本通过人力提供服务的领域,思考今天是否可通过 AI Agent 完成。这很有意义,因为你找到的是已经被验证的商业场景,无需再验证其商业价值。

有些领域已是成熟业务,且可能是好生意,只是受限于专业人才稀缺或人力成本,只能提供部分高价值服务。若转为 AI Agent 服务,可将原本需要几十美元甚至几百元的服务降至几美元或更低,特别是随着 AI 进步,成本可能进一步降低。这不仅提供更快服务、更低成本,还能扩大客户覆盖范围和业务范围,形成良好商业模式。这些都是值得探索的方向,我们也在积极思考这类问题。


🚥 Koji

如果大家有创业想法,欢迎联系郑灿。

接下来讨论第 15 个问题:很多人购买了英伟达股票,你认为 Manus 对英伟达有何影响?


👦🏻 郑灿

这是个价值百万美元的问题(笑)。事实上,从长期看,这对英伟达的需求是积极的;短期看,影响有限,类似 DeepSeek 对英伟达的影响。

首先,模型训练目前仍在持续增长,尚未见到明确上限,更高效的模型架构仍在研究中。但我们可能不会再看到英伟达用量像过去那样呈十倍百倍增长。实际上,DeepSeek 发布后一个月内,海外 H200 GPU 租金上涨了 10%。

原因很简单:大家都需要部署 DeepSeek。过去同等能力的模型如 OpenAI 产品,你只能购买 API,现在可以自行部署和优化。这些蒸馏模型的实际使用量比原模型更多。我们一直强调推理才是模型真正落地的主要部分,训练只是在当前模型不成熟阶段贡献了英伟达收入的大部分。在未来 AI 时代,推理用量应该是训练的至少十倍。

Manus 这类产品通过 token 完成规划和输入输出,会消耗大量算力,这甚至是此类产品面临的一个实际问题。但回到英伟达话题,比起思考这些产品对英伟达的影响,更应考虑英伟达当前估值中有多少基于已交付业绩,多少基于未来预期,以及当前交付量是过多还是不足。

有趣的是,DeepSeek 发布前的去年一整年,GPU的租金实际一直在下降,H200 价格持续下跌。反而是 DeepSeek 发布一个月内,中美的硬件租赁价格涨了10%,特别是 H200,因为一台 8 卡 H200 机器正好能部署一个完整的 DeepSeek 模型。

更值得讨论的是,当前 AI Agent 产品面临的主要问题是模型推理效率低下,消耗的 token 过多。

我们期待这个问题未来能够得到解决,且我相信一定会解决。当前推理主要依靠模型「自言自语」,通过预测生成 token,再将生成的 token 作为上下文重新输入,以完成规划,我们开玩笑把这种方法叫做 「吐了吃」。这种效率实际上很低,因为思考完全可以在「体内」完成,只是当前模型架构设计使其必须将思考过程通过 token 外显,再作为后续步骤的指引。

如果模型能够在「体内」思考,效率将大幅提高,成本可能显著降低。虽然算力消耗不一定减少,但效率会提升,因为输出 token 还涉及 IO 时间。比起 token 成本,时间成本可能是更大的问题。目前让 Manus 完成一项任务可能需要很长时间,但如果这些思考过程全部在模型内部进行,无需转化为 token,所需时间可能只是现在的十分之一甚至更少。这是我们特别期待的新型推理模型。


🚥 Koji

实际上我们上次来十字路口录播客是去年年底,我们做了一期 AI 出海公司的复盘:。短短一个季度过去,变化似乎已翻天覆地。那时还没有 DeepSeek,没有 Manus,甚至 Gemini 2.0 思考功能那时也未发布,更不用说现在已推出多模态自然语言编辑功能。


👦🏻 郑灿

那时这些确实都没有,唯一的思考模型是 ChatGPT。



🚥 Koji

三个月过去,变化非常多。所以第 16 个问题是个较为宏观的问题:你认为大家所谈论的 Agentic 时代真的要来了吗?这会是一个什么样的时代?


👦🏻 郑灿

我认为 Agentic 时代一定会到来。

去年我就这么认为,今年依然如此。

去年的问题是模型何时能变得更好。去年年底我做过一次盘点,当时对模型的展望之一就是希望有更强的模型能让 Agent 真正落地,真正完成任务。那句话说完后,DeepSeek 尚未发布,之后各种思考模型也相继出现,现在 Manus 也已问世。终于能看到这类产品落地,这背后离不开模型的持续进步。

这个时代确实离我们越来越近,尤其是过去这个季度实际上大幅拉近了距离。接下来我们会看到更多 Agent 产品,以及可能在各个专业领域由浅入深地落地。某些领域如编程已经成为默认应用场景,相关产品如 Cursor 已基本成为标配。针对无编程背景用户的产品如 Lovable、bolt.new 等也发展得很好,成为面向更广泛用户群体的产品。

在知识工作者进行研究的领域,我们有了 Manus 和其他深度搜索类产品。这些都是我们已看到的趋势和征兆,接下来在更多领域,我们将看到类似产品涌现。


🚥 Koji

确实如同一夜之间千树万树梨花开。第 17 个问题与此相关:在这一波 Agent 产品如 Cursor、Devin、Manus 陆续发布前,AI 讨论主要围绕 ChatGPT 或豆包等聊天软件。而新的 Agent 交互形式让面向消费者的产品形态发生了很多变化。

在你看来,这些变化有哪些特点?对创业者和开发者而言,又意味着哪些机会或风险?


👦🏻 郑灿

这个问题很有意思。首先,聊天机器人对我而言是 AI 的一个意外之喜。这是个意外,但有其必然性——有能像人一样与我交谈的工具确实很吸引人。但从 AI 带来的价值角度看,聊天机器人本身是个意外产物。

我们原本期待 AI 在生产力提升方面的真正落地应该是 Agent——虽然 Agent 是个很宽泛的术语,但 AI 在生产力领域的主要价值来源应该是帮助完成实际有用的任务。从某种意义上说,这个演进过程是必然的。早期只能做聊天机器人,是因为模型能力有限,无法让它完成实际任务,或者完成了也不可靠。因此,这一变化本质上是模型能力终于达到实用门槛的结果。


🚥 Koji

这引出另一个有趣话题,也是第 18 个问题:随着模型不断变强,从 ChatGPT-3 时代就有「模型即产品」的观点。

技术与产品的边界有时变得模糊,但 Manus 发布后又变得清晰。DeepSeek 出现时,大家认为界限已模糊,强大模型碾压了之前的产品;但 Manus 一发布,又让人意识到产品能力仍很重要。在你看来,这个边界究竟在哪里?


👦🏻 郑灿

我认为我们真正使用的都是产品,所以边界其实很明显。以 DeepSeek 为例,如果将其视为技术,其原始模型 R1-Zero 可能是更强大的模型,因为它是通过强化学习训练出来的,没有经过对齐处理。但当它变成聊天应用时,需要进行对齐,包括确保它说正确的话、做正确的事,使用通顺语言等。

有趣的是,他们提到 Zero 在学习时语言混杂,表达不流畅但思维敏捷。而我们看到的 DeepSeek 聊天机器人表达流利,这是经过大量对齐和优化的结果。这本质上可能反而限制了模型的某些能力,但这正是产品对模型的控制——使其可控,不会产生不适当的输出,提升用户体验。所以我们最终使用的都是产品。

「模型即产品」之所以成为讨论点,是因为模型能力在很大程度上决定了产品的上限。

去年可能没人会做 Manus 这样的产品,因为即使做了也无法达到今天的效果。这就是为什么新产品形态往往伴随着模型能力的突破而出现——过去一个季度模型能力大幅跃进,产品也随之井喷。

但千万不要忽视产品化的重要性。即使拥有相同的底层模型,不同产品的体验仍有很大差异,就像电动汽车使用相同的电池和电驱,但整车体验差异巨大。本质上,模型决定产品能力上限,但需要产品力来确保模型能力能转化为良好用户体验。能力与体验之间的差距,就是所谓的产品化过程。


🚥 Koji

我们最后两个问题,一个关于行业,一个关于个体。

第 19 个问题想请教郑灿:你认为 AI Agent 会让哪些行业最先受益,又有哪些行业最可能被它颠覆?


👦🏻 郑灿

我认为 AI 落地的场景,简单来说仍是我们前面提到的原则:成本高的场景、离变现近的场景

最典型的应用领域,虽然与日常创业关系不大,是军事和国防领域。这些场景会不遗余力地采用能提供帮助的技术,即使技术不够成熟,也会通过各种方法去限制和优化使其可用。

在我们可以讨论的领域中,编程是个典型场景。这个领域是受益还是被颠覆很难界定,但确实这一行业原本人力成本非常高且知识密集。如今,我们都从中受益,包括我在内——我们开玩笑说这是「中老年程序员的春药」。手速可能不如从前,但思维仍在,使用 Cursor 可以极大提高效率,用 Loveble 可以让原本不擅长前端的程序员做出像样的界面,这些都是显著收益。

但从另一角度,这个行业也可能被颠覆。颠覆意味着行业供需关系发生根本变化——以前需要专业程序员编写程序,今天可能不再需要。现在已经看到产品经理使用 Loveble 直接制作原型,告诉程序员如何实现;再过不久,他们可能直接将产品发布,无需程序员参与。

我们甚至在讨论,未来任何有需求的人都可以编写程序。例如,咖啡店老板可以自己开发线上点单小程序。再进一步,甚至那些没有明确商业价值的应用也能轻松实现——比如春节想做个发红包程序,过去这种想法听起来不切实际,但现在完全可行。未来可能会出现大量「用后即弃」的程序,没有明确经济价值,这正是行业被颠覆的体现——供需关系发生了巨大变化。

loading

个人如何应对 AI Agent 时代

🚥 Koji

好的,我们最后一个压轴问题轻松一点,也是每个人都关心的:请鸭哥分享,作为普通个体,在这样的时代,我们应该做哪些调整或变化,来更好地拥抱它?


👦🏼 鸭哥

这是个特别好的问题,我也花了很多时间思考。

首先,我认为 Agent AI 与传统非 AI 时代相比,最大特点是人类职责的改变。我们更需要定义问题(告诉 AI 「What」),而非具体指导 AI 如何工作(告诉 AI 「How」)。

举个比方,在 AI 时代前,作为程序员,编写代码就像在船上划桨。我们需要学习各种编程知识,就如同学习如何更快地划桨;需要打磨工具,如选择合适的桨材料和形状以最大化效率。这是传统人才培养体系,公司招聘时考察候选人编程能力、白板编程、查看 GitHub 贡献等。

但 AI 时代的到来,就像出现了蒸汽机。人类划桨再厉害,也比不过蒸汽机的速度,也无法 24 / 7 不间断工作。

这带来的影响是:社会和公司需要的人才逐渐不再是「划桨快」的人,而是那些能给蒸汽机加煤、添水的专业人才。过去为人类划桨打磨的工具也变得不那么重要。

我们要追求的是为蒸汽机找到合适工具,比如发明螺旋桨。人才核心职责从「划船」变成了「让蒸汽机高效划船」。换言之,我们需要的是「AI Enable」(AI 赋能)能力,让 AI 尽可能发挥作用,这比亲自「划船」更关键。这样的人才是未来最需要的,所以想为未来做准备,应着重培养 AI 赋能能力。

不过大家也不必特别恐慌。虽然 AI 是人类历史首次出现,但之前已有类似经历。最简单的例子是计算器——我们上学时考试不允许使用计算器,老师担心使用计算器会削弱数学思维能力。但工作后发现计算器非常实用,并未出现担忧的情况。相反,从繁琐计算中解放出来的精力可以用于解决更复杂问题。

因此,我认为 Agent AI 革命与汽车、电力或计算器引入生活没有本质区别。很多转变会自然发生,但如果我们对未来趋势有认知和准备,这一转变对个人会更加平滑。


👦🏻 郑灿

这确实是个有趣话题。我完全同意,今天我们更需要的是找到问题,因为解决问题的方法已经存在,且成本大幅降低。

但 AI 或 Agent AI 有一个与以往不同的地方:过去我们谈技术替代时,通常从替代成本低、劳动密集型工作开始,这是以往技术的特点。而今天不同的是,知识密集型或技能密集型领域可能最先受益或被颠覆。受益到一定程度就会导致颠覆,这很容易理解。

这是一个重大差异——AI 不是去颠覆劳动密集型行业,而是颠覆知识密集型、技能密集型行业

换言之,实际上是原本更「白领」甚至专业领域正在发生变化。而且它相对通用,适用于各种专业领域:只要是需要花时间学习、有教材可学的技能,AI 就可能掌握。这也是我们感到兴奋的原因,同时也使得寻找问题的能力变得更加重要。


🚥 Koji

寻找人生动机的能力也变得尤其重要

以往我们的行动大多被安排——孩童时被安排学习语文、数学、地理,被安排学习跳绳、跳远;工作后,许多 OKR 也是自上而下安排的。接下来,如何找到每天起床的动机、工作的动机,在这个社会中变得尤为重要。



loading


推荐鸭哥的 AI 课程

🦆 《FROM USERS TO BUILDERS - 完成自我进化,拥抱AI时代》[2] ,欢迎感兴趣的朋友们了解。


欢迎订阅「十字路口」播客

🚦 我们关注新一代 AI 技术浪潮带来的行业新变化和创业新机会。十字路口是乔布斯对苹果公司的一个比喻,形容它站在科技与人文的十字路口,伟大的产品往往诞生在这里。AI 正在给各行各业带来改变,我们寻找、访谈和凝聚 AI 时代的「积极行动者」,和他们一起,探索和拥抱新变化,新的可能性。


👦🏻  主播 Koji:新世相/躺岛的联合创始人。我相信科技尤其是 AI 会在未来彻底改变社会,赋能人类,欢迎大家找我聊天,碰撞想法,链接下一个可能性。Koji 的即刻[3]Koji 的网站[4]


👧🏻 主播 Ronghui:供职于科技 VC,前《第一财经周刊》驻硅谷记者,Ronghui 的即刻[5]

欢迎加入「十字路口」的会员群


☀️ 第一手的 AI 资讯与洞察

👫🏻 鼓励大家谈恋爱/交朋友/寻找未来的同路人

🦀 添加小助理微信入群:Rwkfbcianvd ,或扫下方二维码

loading
loading

参考资料

[1]

Manus 没有秘密: https://www.xiaoyuzhoufm.com/episode/67d244bbe924d4525a3e15a7

[2]

《FROM USERS TO BUILDERS - 完成自我进化,拥抱AI时代》: https://www.superlinear.academy/c/ai/

[3]

Koji 的即刻: https://okjk.co/0JSUes

[4]

Koji 的网站: https://koji.super.site/

[5]

Ronghui 的即刻: https://okjk.co/0cbnYV

© 2024 精读
删除内容请联系邮箱 2879853325@qq.com