Gemini 3.1 Pro：77.1% ARC-AGI-2，幻觉率从 88% 降到 44%

Simi 收录于 AI

2026-02-20 约 463 字预计阅读 1 分钟

发布

2026 年 2 月 20 日，Google 正式推出 Gemini 3.1 Pro。

这是 2 月 13 日 Gemini 3 Deep Think 的非推理模式版本，更注重实用性和泛化能力，而非专项推理突破。

ARC-AGI-2 基准

模型	ARC-AGI-2 分数	vs 前代
Gemini 3.0 Pro	31.1%	—
Gemini 3.1 Pro	77.1%	+148%

分数直接翻倍有余，在 ARC-AGI-2 这个被认为是真正测通用推理的基准上，77.1% 是当时非推理模式的最高分。

幻觉率改善

模型	幻觉率
Gemini 3.0 Pro	88%
Gemini 3.1 Pro	44%

幻觉率降了一半。Google 没有公布具体评测方法（不同评测集对幻觉的定义差异很大），但降幅本身足够引起注意。

工具使用能力（APEX-Agents）

模型	APEX-Agents
Gemini 3.0 Pro	18.4%
Gemini 3.1 Pro	33.5%

工具调用成功率也提升了约 82%。

Deep Think（2 月 13 日）是专用推理模式，给足思考时间，代价是延迟高。

3.1 Pro 是实用模式，延迟正常，但用了一些蒸馏技术把 Deep Think 的推理能力迁移过来，保留了大部分推理提升，延迟回到可接受范围。

77.1% 在 ARC-AGI-2 上意味着这个模型对复杂抽象问题的处理能力已经相当强。用在需要理解复杂规则、跨步骤推理的产品里，是可用的选择。

幻觉率降到 44% 仍然不低，但对需要长文档理解、多步骤推理的场景，3.1 Pro 比上一代可用性提升明显。