Gemini 3 Deep Think:84.6% 碾压 ARC-AGI-2,离 AGI 红线只差一步
目录
ARC-AGI 是什么
ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)是最接近"测试通用智能"的基准之一。
它不考知识,考的是在未知规则下解决新问题的能力——给一个视觉谜题,人类能推断出变换规则然后应用到新图形上。
比 MMLU 这种知识测试对通用智能的指向性更强。
2026 年 2 月 13 日发生了什么
Google 凌晨发布 Gemini 3 的 Deep Think 专用推理模式,在 ARC-AGI-2 上测出 84.6% 正确率。
这个数字的意义:
| 阈值 | 分数 | 含义 |
|---|---|---|
| 普通人类平均 | ~60% | |
| ARC Prize “强 AGI 信号” | ≥85% | 模型展现了真正的通用推理能力 |
| Gemini 3 Deep Think | 84.6% | 距离红线差 0.4% |
之前最强的是 Claude Opus 4.6 和 GPT-5.2,都在 75% 左右。Gemini 3 Deep Think 直接拉到 84.6%。
技术路线
Deep Think 的做法是给模型更多"思考时间"——不是直接输出答案,而是让模型在内部进行多步验证后再给出最终判断。
本质是 Test-time Compute 的极致应用:推理时消耗更多算力,换取更准确的答案。
为什么还是没到 85%
Google 自己没给解释,但行业猜测:
- ARC-AGI-2 有些题涉及真实世界的物理直觉,模型即使推理过程正确也可能卡在常识上
- 84.6% 到 85% 的差距可能不是能力问题,是评测集噪声或题型分布问题
ARC Prize 官方的说法是"超过 85% 就等于模型具备真正通用推理能力"。Gemini 3 Deep Think 现在是这个标准最接近的挑战者。
对开发者的实际意义
ARC-AGI 分数再高,也是特定类型的推理任务。
对做产品的开发者来说,Deep Think 模式释放的信号是:AI 在需要多步推断的复杂任务上,已经接近人类专家水平。
代码审查、数学证明、科学假设验证这类任务,可以开始认真考虑用 AI 做 primary solver,而不是 backup。