Gemini 3 Deep Think：84.6% 碾压 ARC-AGI-2，离 AGI 红线只差一步

Simi 收录于 AI

2026-02-13 约 665 字预计阅读 2 分钟

ARC-AGI 是什么

ARC-AGI（Abstraction and Reasoning Corpus for Artificial General Intelligence）是最接近"测试通用智能"的基准之一。

它不考知识，考的是在未知规则下解决新问题的能力——给一个视觉谜题，人类能推断出变换规则然后应用到新图形上。

比 MMLU 这种知识测试对通用智能的指向性更强。

Google 凌晨发布 Gemini 3 的 Deep Think 专用推理模式，在 ARC-AGI-2 上测出 84.6% 正确率。

这个数字的意义：

之前最强的是 Claude Opus 4.6 和 GPT-5.2，都在 75% 左右。Gemini 3 Deep Think 直接拉到 84.6%。

Deep Think 的做法是给模型更多"思考时间"——不是直接输出答案，而是让模型在内部进行多步验证后再给出最终判断。

本质是 Test-time Compute 的极致应用：推理时消耗更多算力，换取更准确的答案。

Google 自己没给解释，但行业猜测：

ARC Prize 官方的说法是"超过 85% 就等于模型具备真正通用推理能力"。Gemini 3 Deep Think 现在是这个标准最接近的挑战者。

ARC-AGI 分数再高，也是特定类型的推理任务。

对做产品的开发者来说，Deep Think 模式释放的信号是：AI 在需要多步推断的复杂任务上，已经接近人类专家水平。

代码审查、数学证明、科学假设验证这类任务，可以开始认真考虑用 AI 做 primary solver，而不是 backup。