Devin 半年后：理想与现实的差距

Simi 收录于 AI

2023-11-15 约 1396 字预计阅读 3 分钟

背景

Devin 是 Cognition 公司在 2023 年初发布的产品，号称"第一个 AI 软件工程师"。

$500/月，是当时最贵的 AI 编程工具。发布时全网刷屏，YouTube 上各种"Devin 帮我做了整个项目"的视频。

半年过去了，真实情况如何？

半年后的真实反馈

Devin 能做什么

1. 独立完成小型封闭任务

        
# Devin 的强项：任务边界清晰，输入输出明确
# 例如：
# - "写一个 Python script 爬取这个网页"
# - "给这个 API 写 unittests"
# - "把这个函数改成异步的"

这类任务的特点：不需要业务上下文，不需要了解项目其他部分，不需要做架构决策。

2. 自动化重复性工作

        
# Devin 适合的场景
# - 重构 100 个文件里的某个模式
# - 给 50 个 API endpoint 添加统一的错误处理
# - 把一个代码库从 Python 2 迁移到 Python 3

Devin 不累，24 小时干活，这是它比 human developer 强的地方。

3. 快速原型

输入："帮我用 Next.js 和 Prisma 建一个 todo app，有用户认证"
Devin 能在 30 分钟内给你一个能跑的项目
质量一般，但能看能用

Devin 做不了什么

1. 需要业务上下文的复杂任务

        
        
        
    
# Devin 经常出现的情况：
# 任务："把这个订单处理模块重构一下"
# Devin: 开始重构，看起来在做
# 结果：代码能跑，但不符合业务规则
# 
# 问题：Devin 不知道你们公司的订单规则是什么

2. 多文件协调的架构决策

        
# Devin 的架构能力有限
# 你让它设计一个系统，它能给你一个看起来合理的方案
# 但：是否符合你们团队的技术栈？是否满足性能要求？是否考虑了运维成本？

# 实际上 Devin 给的架构方案通常过于理想化

3. Bug 修复（复杂的那种）

        
# Devin 擅长修简单的 bug：typo、空指针、明显的逻辑错误
# 不擅长修：并发 bug、性能问题、需要理解业务才能定位的问题

# 一个 bug 调了两天没调出来 → 丢给 Devin
# Devin: "我看了一下，可能是 A 导致的"
# 实际上：是 Z 模块的 side effect，Devin 没有上下文

半年使用数据

根据公开反馈和社区数据：

任务类型	成功率	平均耗时
简单 script 编写	90%	10-20 分钟
API 测试编写	85%	15-30 分钟
代码重构（单文件）	70%	30-60 分钟
完整功能开发	40%	2-8 小时
系统设计	20%	不确定
Bug 定位修复	50%	不确定

结论：Devin 适合"小、简单、独立"的任务。复杂任务失败率高，而且失败后很难 debug。

为什么不重度使用

1. 成本问题

$500/月 = $6000/年。一个初级工程师年薪的 1/3 左右。

但 Devin 的产出大概只有初级工程师的 20%（而且那 20% 还经常需要人 review）。

2. 质量不可控

        
        
        
    
# Devin 写代码快，但 review 时间省不了
# 
# 实际上 Human review 的时间：
# - 看懂 Devin 做了什么
# - 确认逻辑是否正确
# - 发现 bug
# - 指出需要改的地方
#
# 很多团队发现：review Devin 的代码比自己写还累

3. 上下文丢失

Devin 每次任务的 context 是独立的。你让它做一个功能，下次让它做另一个功能，它不会主动关联之前的工作。

实际使用建议

Devin 的正确用法：

        
        
        
    
# 适合交给 Devin 的任务：
# - 一次性脚本
# - 测试补充
# - 简单的重构
# - 数据迁移
# - 快速原型

# 不适合交给 Devin 的任务：
# - 需要业务知识的复杂功能
# - 系统设计
# - Bug 定位
# - 需要了解项目整体的改动

不要期待 Devin 取代程序员。把它当一个有经验的实习生——能完成简单任务，但需要人带。

结论

Devin 代表的理想：AI 取代程序员做完整的软件开发。

现实：AI 能做部分工作，但复杂软件工程需要的业务理解、架构决策、团队协作，AI 依然做不到。

半年过去了，Devin 的用户大多数是个人开发者在用，极少有团队把它作为主力开发工具。

这不是 Devin 的失败，是 AI 编程技术目前位置的客观反映。

目录