AI Agent 自主能力分级:你的 Agent 到底是 L1 还是 L5
目录
为什么需要分级
“AI Agent” 这个词现在遍地都是。但同样叫 Agent,从"只会回复消息"到"完全自主工作",能力差了十万八千里。
没有分级标准,就没法判断:
- 竞品的实际能力
- 自己做的 Agent 在什么水平
- 哪些场景可以自动化,哪些还需要人盯着
这篇文章借鉴自动驾驶的分级思路,给 AI Agent 做一个实际能力分级。
分级框架
L0: 工具调用
能力:LLM 生成文本,工具执行操作。
# L0 Agent
def agent(user_input):
response = llm.chat(user_input) # 纯聊天
return response
# 特点:LLM 只生成文字,工具是确定性执行
# 例:Copilot Chat、简单 chatbotL1: 单步工具编排
能力:LLM 根据用户输入,决定调用哪个工具。
# L1 Agent
def agent(user_input):
intent = llm.classify_intent(user_input) # 意图识别
if intent == "github_pr":
return github_api.create_pr(...)
elif intent == "code_review":
return code_review_tool.analyze(...)
# 工具是预设的,LLM 只做路由L2: 多步工具链编排
能力:LLM 自主编排多步工具链。
# L2 Agent
def agent(task):
plan = llm.plan(task) # LLM 生成计划
for step in plan:
result = execute_tool(step) # 依次执行
if needs_feedback(result):
plan = llm.adjust_plan(plan, result) # 动态调整
return final_result例:Claude Code、Cursor Agent。
L3: 有状态自主
能力:Agent 有记忆,可以跨对话保持状态。
# L3 Agent
class Agent:
def __init__(self):
self.memory = Memory() # 持久记忆
self.tools = [...]
def run(self, task):
context = self.memory.get_relevant(task)
plan = llm.plan(task, context=context)
result = self.execute(plan)
self.memory.add(task, result) # 记住
return resultL4: 自我评估
能力:Agent 能评估自己的输出质量,不满意就重试。
# L4 Agent
def agent(task):
plan = llm.plan(task)
result = execute(plan)
# 自我评估
quality = evaluator.score(result, task)
if quality < threshold:
result = agent.retry(task) # 重新做
return resultL5: 完全自主
能力:Agent 可以在没有人监督的情况下,完成复杂多日任务。
# L5 Agent (目前不存在)
# 特点:
# - 自我学习
# - 跨系统协调
# - 长期规划
# - 主动发现和解决问题各级别代表产品
| 级别 | 代表产品 | 自主能力 |
|---|---|---|
| L0 | Copilot Chat | 仅生成文本 |
| L1 | IFTTT AI、简单 Bot | 规则路由 |
| L2 | Claude Code、Cursor Agent | 多步编排 |
| L3 | OpenClaw | 有状态、多渠道 |
| L4 | Devin | 自我评估、重试 |
| L5 | 不存在 | 完全自主 |
怎么评估你的 Agent
问这几个问题:
1. Agent 能跨对话记住上下文吗?
→ 不能:L0-L1
→ 能:L2+
2. Agent 能同时操作多个工具吗?
→ 不能:L0-L1
→ 能:L2+
3. Agent 能评估输出质量并重试吗?
→ 不能:L2-L3
→ 能:L4+
4. Agent 能自主规划超过 10 步的任务吗?
→ 不能:L4
→ 能:L5各级别的工程挑战
L0-L1: 简单
主要挑战是工具定义和意图识别。
L2: 中等
# 挑战:
# - 工具执行失败处理
# - 工具链的可观测性
# - 执行顺序优化L3: 复杂
# 挑战:
# - 记忆的检索相关性
# - 状态一致性
# - 跨渠道状态同步L4: 很难
# 挑战:
# - 评估标准怎么定
# - 重试策略(避免死循环)
# - 自我修复的边界结论
现在大多数"AI Agent"产品,其实都是 L2-L3。
真正的 L4 极少,L5 不存在。Devin 号称 L4,但实际上还是需要人盯着。
做 Agent 产品时,先想清楚你要做哪个级别:
- L2 已经能解决很多问题
- L3 需要额外的记忆系统
- L4 需要自我评估框架
不要一上来就想做 L5,这不现实。