首页   

//@i陆三金:李宏毅讲课比较有趣,不知不觉就看完了//@J1M-20250309221617

蒋涛CSDN  · 科技自媒体  · 18 小时前

正文

2025-03-09 22:16

//@i陆三金:李宏毅讲课比较有趣,不知不觉就看完了//@J1M大表哥:谢谢推荐,准备看一下,就是太长了 [允悲] ,我准备做一个介绍AI agent的视频,争取控制在20分钟内
李宏毅刚刚发布了《一堂课搞懂 AI Agent 的原理》,非常深入浅出,强烈推荐。

从 LLM 的角度来看,它做 AI Agent 任务仍然是在做文字接龙。AI Agent 并不是语言模型的新技术,它比较像语言模型的一个应用。

主要内容:

一、AI Agent 的基本运作原理

核心循环:目标 (Goal) -> 观察 (Observation) -> 行动 (Action)。

Action 影响环境,产生新的 Observation。

循环往复,直至达成目标。

举例:AlphaGo
- 目标:赢棋。
- Observation:棋盘上的棋子位置。
- Action:在棋盘上落子。

与强化学习 (RL) 的关系:
- 传统上,AI Agent的打造依赖 RL 算法。
- RL 的局限性:需要为每个任务单独训练模型。
- 新的思路:能否直接用 LLM 作为 AI Agent?

二、LLM 作为 AI Agent

目标 (文字描述) -> 环境 (转为文字或直接使用图像) -> 行动 (文字描述,需转译为可执行指令)。

LLM 的核心是文字接龙,AI Agent 是 LLM 的一种应用。

本课程没有新的模型被训练,是基于现有LLM通用能力的应用。

历史回顾:2023 年春季出现过一波 AI Agent 热潮 (AutoGPT),但后来降温,因为实际效果不如预期。

LLM 驱动 AI Agent 的优势:
- 行动可能性近乎无限,不再局限于预设行为。
- 无需像 RL 那样定义 Reward,可直接提供错误日志等丰富信息。

三、AI Agent 实例

AI 村民:斯坦福小镇

AI 使用电脑:Cloud Computer Use、ChatGPT Operator。

AI 训练 AI 模型:Google 的 co-scientist 等

四、更即时的互动

需要能够根据环境的实时变化,立刻调整行动。

应用场景:语音对话

五、AI Agent 的关键能力剖析

(一)根据经验调整行为

传统方法:调整模型参数 (本课程不涉及)。

LLM 的能力:直接提供错误信息,无需调整参数即可改变行为。

关键问题:如何管理和利用过去的经验?

解决方案:Memory 机制,类似于人类的长期记忆。
- Read 模块:从 Memory 中选择与当前问题相关的经验。类似于 RAG 技术。
- Write 模块:决定什么信息应该被记录下来。
- Reflection 模块:对记忆中的信息做抽象、整理,建立经验之间的联系 (Knowledge Graph)。类似于 GraphRAG、HippoRAG。

(二)使用工具

工具定义:只需知道如何使用,无需了解内部运作。

常用工具:搜索引擎、程序 (LLM 自己编写)、其他 AI 模型。

使用工具 = 调用函数 (Function Calling)。

需要开发者搭建桥梁,将 Tool 指令转化为实际的函数调用。

具体工具:
- 搜索引擎 (RAG)
-自己打造工具:LLM 自己编写程序,作为工具使用。
- 其他 AI 作为工具:
文字模型调用语音识别、情绪识别等工具处理语音。
大模型和小模型协同工作。

过度相信工具的风险:LLM 有一定程度的判断力,但有时仍会出错。

使用工具会遇到的问题:内部知识 vs. 外部知识冲突
- LLM 会在内部知识 (信念) 和外部知识 (工具结果) 之间进行权衡。
- 外部知识与 LLM 信念差距越大,LLM 越不容易相信。
- LLM 对自己信念的信心也会影响其是否被外部信息动摇。

另外,使用工具不一定总是更有效率,取决于 LLM 本身的能力。

(三)做计划

当前传统 LLM 的规划能力:介于有和没有之间。

进一步强化规划能力:与环境互动探索 (Tree Search),去除没希望的路径。

Tree Search 缺点:有些动作不可逆。

解决方案:让尝试发生在脑内模拟 (World Model),模拟环境变化。

用脑内小剧场进行规划:思考、验证可能性,模拟世界变化。

DeepSeek-R1 等思考模型确实有类似效果 。

但也存在过度思考的风险:LLM 可能会想太多,停滞不前,甚至直接放弃。

链接:网页链接
PPT链接:网页链接 i陆三金的微博视频
推荐文章
© 2024 精读
删除内容请联系邮箱 2879853325@qq.com