AI Agent 自主能力分级：你的 Agent 到底是 L1 还是 L5

Simi 收录于 AI Agent

2026-01-03 约 1077 字预计阅读 3 分钟

为什么需要分级

“AI Agent” 这个词现在遍地都是。但同样叫 Agent，从"只会回复消息"到"完全自主工作"，能力差了十万八千里。

没有分级标准，就没法判断：

竞品的实际能力
自己做的 Agent 在什么水平
哪些场景可以自动化，哪些还需要人盯着

这篇文章借鉴自动驾驶的分级思路，给 AI Agent 做一个实际能力分级。

分级框架

L0: 工具调用

能力：LLM 生成文本，工具执行操作。

        
# L0 Agent
def agent(user_input):
    response = llm.chat(user_input)  # 纯聊天
    return response

# 特点：LLM 只生成文字，工具是确定性执行
# 例：Copilot Chat、简单 chatbot

L1: 单步工具编排

能力：LLM 根据用户输入，决定调用哪个工具。

        
        
        
    
# L1 Agent
def agent(user_input):
    intent = llm.classify_intent(user_input)  # 意图识别
    if intent == "github_pr":
        return github_api.create_pr(...)
    elif intent == "code_review":
        return code_review_tool.analyze(...)
    # 工具是预设的，LLM 只做路由

L2: 多步工具链编排

能力：LLM 自主编排多步工具链。

        
        
        
    
# L2 Agent
def agent(task):
    plan = llm.plan(task)  # LLM 生成计划
    for step in plan:
        result = execute_tool(step)  # 依次执行
        if needs_feedback(result):
            plan = llm.adjust_plan(plan, result)  # 动态调整
    return final_result

例：Claude Code、Cursor Agent。

L3: 有状态自主

能力：Agent 有记忆，可以跨对话保持状态。

        
        
        
    
# L3 Agent
class Agent:
    def __init__(self):
        self.memory = Memory()  # 持久记忆
        self.tools = [...]
    
    def run(self, task):
        context = self.memory.get_relevant(task)
        plan = llm.plan(task, context=context)
        result = self.execute(plan)
        self.memory.add(task, result)  # 记住
        return result

L4: 自我评估

能力：Agent 能评估自己的输出质量，不满意就重试。

        
        
        
    
# L4 Agent
def agent(task):
    plan = llm.plan(task)
    result = execute(plan)
    
    # 自我评估
    quality = evaluator.score(result, task)
    if quality < threshold:
        result = agent.retry(task)  # 重新做
    
    return result

L5: 完全自主

能力：Agent 可以在没有人监督的情况下，完成复杂多日任务。

        
        
        
    
# L5 Agent (目前不存在)
# 特点：
# - 自我学习
# - 跨系统协调
# - 长期规划
# - 主动发现和解决问题

各级别代表产品

级别	代表产品	自主能力
L0	Copilot Chat	仅生成文本
L1	IFTTT AI、简单 Bot	规则路由
L2	Claude Code、Cursor Agent	多步编排
L3	OpenClaw	有状态、多渠道
L4	Devin	自我评估、重试
L5	不存在	完全自主

怎么评估你的 Agent

问这几个问题：

        
        
        
    
1. Agent 能跨对话记住上下文吗？
   → 不能：L0-L1
   → 能：L2+

2. Agent 能同时操作多个工具吗？
   → 不能：L0-L1
   → 能：L2+

3. Agent 能评估输出质量并重试吗？
   → 不能：L2-L3
   → 能：L4+

4. Agent 能自主规划超过 10 步的任务吗？
   → 不能：L4
   → 能：L5

各级别的工程挑战

L0-L1: 简单

主要挑战是工具定义和意图识别。

L2: 中等

        
# 挑战：
# - 工具执行失败处理
# - 工具链的可观测性
# - 执行顺序优化

L3: 复杂

        
# 挑战：
# - 记忆的检索相关性
# - 状态一致性
# - 跨渠道状态同步

L4: 很难

        
# 挑战：
# - 评估标准怎么定
# - 重试策略（避免死循环）
# - 自我修复的边界

结论

现在大多数"AI Agent"产品，其实都是 L2-L3。

真正的 L4 极少，L5 不存在。Devin 号称 L4，但实际上还是需要人盯着。

做 Agent 产品时，先想清楚你要做哪个级别：

L2 已经能解决很多问题
L3 需要额外的记忆系统
L4 需要自我评估框架

不要一上来就想做 L5，这不现实。

目录