什么是Agent?

什么是 Agent?—— AI 从「对话」走向「行动」的桥梁

AI Agent

引言:大模型时代的范式转移

2023 年,ChatGPT 让人们看到了大语言模型(LLM)的惊人能力——它能写代码、写文章、做分析,仿佛无所不能。但它也暴露出一个核心局限:它只能「说」,不能「做」

你让 ChatGPT 帮你查航班、订酒店、操作数据库,它会给你一个漂亮的回答,但无法真正执行这些动作。这就是 Agent(智能体)要解决的根本问题。

Agent = LLM(推理大脑) + Tools(工具能力) + Memory(记忆系统) + Planning(规划能力)

简单来说,Agent 是让 AI 从「被动回答」走向「主动完成任务」的系统级跃迁。


一、Agent 的核心定义

在学术界和工业界,Agent 的定义虽略有差异,但核心共识一致:

Agent 是一种能够感知环境、进行推理决策、并采取措施影响环境的智能系统。

这个定义源自 AI 领域的经典框架(Russell & Norvig, Artificial Intelligence: A Modern Approach)。当我们将 LLM 注入这一框架后,它发生了关键变化:

传统 AgentLLM-powered Agent
基于规则/符号推理基于语义理解与生成式推理
工具调用需硬编码工具选择由模型动态决定
感知模块固定多模态感知(文本、图像、代码)
规划能力有限具备链式推理与反思能力

二、Agent 的四大核心组件

1. LLM —— 「大脑」

LLM 是 Agent 的认知中枢,负责:

  • 意图理解:拆解用户模糊需求为可执行子任务
  • 逻辑推理:使用 Chain-of-Thought、Tree-of-Thoughts 等方法逐步推导
  • 决策制定:在多个可选动作中做出最优选择
  • 自我反思:对执行结果进行评估并调整策略

关键能力:工具使用(Tool Use / Function Calling)。模型需要在大量可用工具中选择最合适的,并以正确的格式调用。

2. Tools —— 「双手」

Tools 是 Agent 与外部世界交互的接口,常见的包括:

  • API 调用:搜索引擎、天气查询、金融数据
  • 代码执行:Python REPL、SQL 查询、Shell 命令
  • 文件操作:读写文件、生成报告
  • Web 浏览:自动填表、爬虫、表单提交
  • 多模态工具:图像生成(DALL-E)、语音合成(TTS)、视频编辑

一个成熟的 Agent 通常需要数十甚至数百个 Tools,构成自己的「工具箱」。

3. Memory —— 「记忆」

Agent 的记忆体系分为两层:

  • 短期记忆(Working Memory):当前对话上下文中的信息,受 LLM Context Window 限制
  • 长期记忆(Long-term Memory):通过向量数据库持久化存储的历史经验、用户偏好、知识库等

💡 RAG(Retrieval-Augmented Generation)是 Agent 获取外部知识的核心手段。将文档向量化后,Agent 可以在需要时检索相关知识片段。

4. Planning —— 「规划」

面对复杂任务,Agent 不能一步到位,需要拆解为子目标逐步执行:

  • ReAct(Reasoning + Acting):推理 → 行动 → 观察 → 再推理的循环
  • Plan-and-Execute:先制定完整计划,再按步骤执行
  • Reflexion:在每一步后自我反思,修正偏差
  • Multi-Agent 协作:多个 Agent 分工合作,如一个负责搜索、一个负责分析、一个负责编写

三、Agent 的工作流范式

3.1 ReAct 框架

ReAct(Reasoning + Acting)是最经典的 Agent 范式。它将推理过程与行动过程交织在一起:

用户: "帮我查北京明天天气,然后推荐适合的着装"

🤔 Thought: 我需要先获取北京的天气信息
🛠️ Action: search_weather(city="北京", day="tomorrow")
📡 Observation: {"temp": 28, "condition": "多云"}

🤔 Thought: 根据天气情况,我可以给出着装建议了
📝 Response: 明天北京气温约28°C,多云。建议穿轻薄长袖...

关键洞察:推理过程是可解释的。人类可以看到 Agent 每一步在怎么想、做了什么、得到了什么结果。

3.2 Plan-and-Execute

对于复杂任务,先规划后执行:

Step 1: [搜索] 查找 Rust async runtime 最新 benchmark
Step 2: [分析] 对比 Tokio、async-std、smol 的性能数据
Step 3: [总结] 生成技术对比报告并保存为 Markdown
Step 4: [推送] 将报告提交到 Hexo 博客

3.3 Multi-Agent 架构

复杂场景需要多个 Agent 协同:

[Planner Agent] → 拆解任务、分配子任务
   ├── [Researcher Agent] → 网络搜索与信息聚合
   ├── [Coder Agent]     → 代码编写与测试
   ├── [Reviewer Agent]  → 代码审查与建议
   └── [Writer Agent]    → 文档撰写与排版

代表性框架:MetaGPTAutoGenLangGraph


四、主流 Agent 框架对比

框架核心理念特点适用场景
LangChain / LangGraph链式编排 + 图状态机生态最丰富,工具最多通用 Agent 开发
AutoGen (Microsoft)多 Agent 对话协作支持角色扮演与自动协商复杂任务协作
CrewAI角色驱动的 Agent 团队API 简洁,上手快业务流自动化
OpenAI Swarm轻量多 Agent 调度极简设计,原生支持快速原型验证
LlamaIndexRAG + Agent 结合知识检索优先文档驱动的智能问答

五、Agent 的典型应用场景

🔍 研究助理 Agent

  • 自动搜索学术论文 → 摘要提取 → 关键发现对比 → 生成综述报告
  • 代表:ElicitConsensus

💻 开发助手 Agent

  • 理解需求 → 编写代码 → 运行测试 → 修复 Bug → 提交 PR
  • 代表:OpenAI CodexClaude CodeCursor

📊 数据分析 Agent

  • 连接数据库 → 编写查询 → 生成可视化图表 → 输出业务洞察
  • 代表:Midday BIAxiom

🌐 Web 自动化 Agent

  • 自动填写表单、操作网页、处理电商下单
  • 代表:Browser-use、Playwright-based Agents

六、Agent 面临的挑战

1. 可靠性与可控性

LLM 的概率本质意味着 Agent 的输出不是确定性的。在金融、医疗等高风险场景,如何保证安全性仍是巨大挑战。

2. 工具选择的幻觉

模型可能在不存在或不适用的 Tool 中产生幻觉调用,导致错误执行。需要严格的输入校验与沙箱机制。

3. 长程任务失败率

随着任务步骤增加,误差累积效应显著。Agent 在超过 10-15 步的复杂任务中成功率急剧下降(“the longer the chain, the weaker the link”)。

4. 成本与延迟

每一步推理 + 工具调用都需要 API 请求,复杂任务的 token 消耗和响应时间可能远超用户预期。


七、未来展望

Agent 正在从「辅助工具」演变为「数字员工」。以下几个方向值得关注:

  1. 更强的自主能力:从「指令驱动」到「目标驱动」——给 Agent 一个目标,让它自己决定怎么做
  2. 多模态融合:不仅仅是文本,还能理解视频、音频、3D 空间
  3. Agent-to-Agent 经济:不同 Agent 之间可以协作、谈判、甚至交易服务
  4. 个性化人格:每个用户拥有自己的定制 Agent,携带长期记忆和个人偏好

结语

Agent 不是某个具体的产品或技术,而是一种架构范式。它把大模型的「语言能力」扩展到了「行动能力」,让人类从「给模型提示词」转变为「给智能体目标」。

正如计算机将「人脑的计算」解放为「机器的自动化」,Agent 正在将「人的认知劳动」解放为「智能体的自主工作」。这个转变才刚刚开始。


参考资料:Russell & Norvig 《人工智能:现代方法》、OpenAI Function Calling 文档、LangChain 官方文档、ReAct (Yao et al., 2022)、AutoGen 论文


什么是Agent?
http://coderedeng.github.io/2026/05/13/什么是Agent/
作者
Evan Deng
发布于
2026年5月13日
许可协议