什么是 Agent？—— AI 从「对话」走向「行动」的桥梁

AI Agent

引言：大模型时代的范式转移

2023 年，ChatGPT 让人们看到了大语言模型（LLM）的惊人能力——它能写代码、写文章、做分析，仿佛无所不能。但它也暴露出一个核心局限：它只能「说」，不能「做」。

你让 ChatGPT 帮你查航班、订酒店、操作数据库，它会给你一个漂亮的回答，但无法真正执行这些动作。这就是 Agent（智能体）要解决的根本问题。

Agent = LLM（推理大脑） + Tools（工具能力） + Memory（记忆系统） + Planning（规划能力）

简单来说，Agent 是让 AI 从「被动回答」走向「主动完成任务」的系统级跃迁。

一、Agent 的核心定义

在学术界和工业界，Agent 的定义虽略有差异，但核心共识一致：

Agent 是一种能够感知环境、进行推理决策、并采取措施影响环境的智能系统。

这个定义源自 AI 领域的经典框架（Russell & Norvig, Artificial Intelligence: A Modern Approach）。当我们将 LLM 注入这一框架后，它发生了关键变化：

传统 Agent	LLM-powered Agent
基于规则/符号推理	基于语义理解与生成式推理
工具调用需硬编码	工具选择由模型动态决定
感知模块固定	多模态感知（文本、图像、代码）
规划能力有限	具备链式推理与反思能力

二、Agent 的四大核心组件

1. LLM —— 「大脑」

LLM 是 Agent 的认知中枢，负责：

意图理解：拆解用户模糊需求为可执行子任务
逻辑推理：使用 Chain-of-Thought、Tree-of-Thoughts 等方法逐步推导
决策制定：在多个可选动作中做出最优选择
自我反思：对执行结果进行评估并调整策略

关键能力：工具使用（Tool Use / Function Calling）。模型需要在大量可用工具中选择最合适的，并以正确的格式调用。

2. Tools —— 「双手」

Tools 是 Agent 与外部世界交互的接口，常见的包括：

API 调用：搜索引擎、天气查询、金融数据
代码执行：Python REPL、SQL 查询、Shell 命令
文件操作：读写文件、生成报告
Web 浏览：自动填表、爬虫、表单提交
多模态工具：图像生成（DALL-E）、语音合成（TTS）、视频编辑

一个成熟的 Agent 通常需要数十甚至数百个 Tools，构成自己的「工具箱」。

3. Memory —— 「记忆」

Agent 的记忆体系分为两层：

短期记忆（Working Memory）：当前对话上下文中的信息，受 LLM Context Window 限制
长期记忆（Long-term Memory）：通过向量数据库持久化存储的历史经验、用户偏好、知识库等

💡 RAG（Retrieval-Augmented Generation）是 Agent 获取外部知识的核心手段。将文档向量化后，Agent 可以在需要时检索相关知识片段。

4. Planning —— 「规划」

面对复杂任务，Agent 不能一步到位，需要拆解为子目标逐步执行：

ReAct（Reasoning + Acting）：推理 → 行动 → 观察 → 再推理的循环
Plan-and-Execute：先制定完整计划，再按步骤执行
Reflexion：在每一步后自我反思，修正偏差
Multi-Agent 协作：多个 Agent 分工合作，如一个负责搜索、一个负责分析、一个负责编写

三、Agent 的工作流范式

3.1 ReAct 框架

ReAct（Reasoning + Acting）是最经典的 Agent 范式。它将推理过程与行动过程交织在一起：

用户: "帮我查北京明天天气，然后推荐适合的着装"

🤔 Thought: 我需要先获取北京的天气信息
🛠️ Action: search_weather(city="北京", day="tomorrow")
📡 Observation: {"temp": 28, "condition": "多云"}

🤔 Thought: 根据天气情况，我可以给出着装建议了
📝 Response: 明天北京气温约28°C，多云。建议穿轻薄长袖...

关键洞察：推理过程是可解释的。人类可以看到 Agent 每一步在怎么想、做了什么、得到了什么结果。

3.2 Plan-and-Execute

对于复杂任务，先规划后执行：

Step 1: [搜索] 查找 Rust async runtime 最新 benchmark
Step 2: [分析] 对比 Tokio、async-std、smol 的性能数据
Step 3: [总结] 生成技术对比报告并保存为 Markdown
Step 4: [推送] 将报告提交到 Hexo 博客

3.3 Multi-Agent 架构

复杂场景需要多个 Agent 协同：

[Planner Agent] → 拆解任务、分配子任务
   ├── [Researcher Agent] → 网络搜索与信息聚合
   ├── [Coder Agent]     → 代码编写与测试
   ├── [Reviewer Agent]  → 代码审查与建议
   └── [Writer Agent]    → 文档撰写与排版

代表性框架：MetaGPT、AutoGen、LangGraph。

四、主流 Agent 框架对比

框架	核心理念	特点	适用场景
LangChain / LangGraph	链式编排 + 图状态机	生态最丰富，工具最多	通用 Agent 开发
AutoGen (Microsoft)	多 Agent 对话协作	支持角色扮演与自动协商	复杂任务协作
CrewAI	角色驱动的 Agent 团队	API 简洁，上手快	业务流自动化
OpenAI Swarm	轻量多 Agent 调度	极简设计，原生支持	快速原型验证
LlamaIndex	RAG + Agent 结合	知识检索优先	文档驱动的智能问答

五、Agent 的典型应用场景

🔍 研究助理 Agent

自动搜索学术论文 → 摘要提取 → 关键发现对比 → 生成综述报告
代表：Elicit、Consensus

💻 开发助手 Agent

理解需求 → 编写代码 → 运行测试 → 修复 Bug → 提交 PR
代表：OpenAI Codex、Claude Code、Cursor

📊 数据分析 Agent

连接数据库 → 编写查询 → 生成可视化图表 → 输出业务洞察
代表：Midday BI、Axiom

🌐 Web 自动化 Agent

自动填写表单、操作网页、处理电商下单
代表：Browser-use、Playwright-based Agents

六、Agent 面临的挑战

1. 可靠性与可控性

LLM 的概率本质意味着 Agent 的输出不是确定性的。在金融、医疗等高风险场景，如何保证安全性仍是巨大挑战。

2. 工具选择的幻觉

模型可能在不存在或不适用的 Tool 中产生幻觉调用，导致错误执行。需要严格的输入校验与沙箱机制。

3. 长程任务失败率

随着任务步骤增加，误差累积效应显著。Agent 在超过 10-15 步的复杂任务中成功率急剧下降（“the longer the chain, the weaker the link”）。

4. 成本与延迟

每一步推理 + 工具调用都需要 API 请求，复杂任务的 token 消耗和响应时间可能远超用户预期。

七、未来展望

Agent 正在从「辅助工具」演变为「数字员工」。以下几个方向值得关注：

更强的自主能力：从「指令驱动」到「目标驱动」——给 Agent 一个目标，让它自己决定怎么做
多模态融合：不仅仅是文本，还能理解视频、音频、3D 空间
Agent-to-Agent 经济：不同 Agent 之间可以协作、谈判、甚至交易服务
个性化人格：每个用户拥有自己的定制 Agent，携带长期记忆和个人偏好

结语

Agent 不是某个具体的产品或技术，而是一种架构范式。它把大模型的「语言能力」扩展到了「行动能力」，让人类从「给模型提示词」转变为「给智能体目标」。

正如计算机将「人脑的计算」解放为「机器的自动化」，Agent 正在将「人的认知劳动」解放为「智能体的自主工作」。这个转变才刚刚开始。

参考资料：Russell & Norvig 《人工智能：现代方法》、OpenAI Function Calling 文档、LangChain 官方文档、ReAct (Yao et al., 2022)、AutoGen 论文

大模型技术

#大模型技术 #Agent #AI智能体 #LLM

什么是Agent？

http://coderedeng.github.io/2026/05/13/什么是Agent/

作者

Evan Deng

发布于

2026年5月13日

许可协议

使用 net/http 实现并发爬取多个 url 标题下一篇