目录

Gemini 3 Deep Think:84.6% 碾压 ARC-AGI-2,离 AGI 红线只差一步

ARC-AGI 是什么

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)是最接近"测试通用智能"的基准之一。

它不考知识,考的是在未知规则下解决新问题的能力——给一个视觉谜题,人类能推断出变换规则然后应用到新图形上。

比 MMLU 这种知识测试对通用智能的指向性更强。

2026 年 2 月 13 日发生了什么

Google 凌晨发布 Gemini 3 的 Deep Think 专用推理模式,在 ARC-AGI-2 上测出 84.6% 正确率

这个数字的意义:

阈值 分数 含义
普通人类平均 ~60%
ARC Prize “强 AGI 信号” ≥85% 模型展现了真正的通用推理能力
Gemini 3 Deep Think 84.6% 距离红线差 0.4%

之前最强的是 Claude Opus 4.6 和 GPT-5.2,都在 75% 左右。Gemini 3 Deep Think 直接拉到 84.6%。

技术路线

Deep Think 的做法是给模型更多"思考时间"——不是直接输出答案,而是让模型在内部进行多步验证后再给出最终判断。

本质是 Test-time Compute 的极致应用:推理时消耗更多算力,换取更准确的答案。

为什么还是没到 85%

Google 自己没给解释,但行业猜测:

  • ARC-AGI-2 有些题涉及真实世界的物理直觉,模型即使推理过程正确也可能卡在常识上
  • 84.6% 到 85% 的差距可能不是能力问题,是评测集噪声或题型分布问题

ARC Prize 官方的说法是"超过 85% 就等于模型具备真正通用推理能力"。Gemini 3 Deep Think 现在是这个标准最接近的挑战者。

对开发者的实际意义

ARC-AGI 分数再高,也是特定类型的推理任务。

对做产品的开发者来说,Deep Think 模式释放的信号是:AI 在需要多步推断的复杂任务上,已经接近人类专家水平

代码审查、数学证明、科学假设验证这类任务,可以开始认真考虑用 AI 做 primary solver,而不是 backup。