目录

Gemini 3.1 Pro:77.1% ARC-AGI-2,幻觉率从 88% 降到 44%

发布

2026 年 2 月 20 日,Google 正式推出 Gemini 3.1 Pro

这是 2 月 13 日 Gemini 3 Deep Think 的非推理模式版本,更注重实用性和泛化能力,而非专项推理突破。

核心数据

ARC-AGI-2 基准

模型 ARC-AGI-2 分数 vs 前代
Gemini 3.0 Pro 31.1%
Gemini 3.1 Pro 77.1% +148%

分数直接翻倍有余,在 ARC-AGI-2 这个被认为是真正测通用推理的基准上,77.1% 是当时非推理模式的最高分。

幻觉率改善

模型 幻觉率
Gemini 3.0 Pro 88%
Gemini 3.1 Pro 44%

幻觉率降了一半。Google 没有公布具体评测方法(不同评测集对幻觉的定义差异很大),但降幅本身足够引起注意。

工具使用能力(APEX-Agents)

模型 APEX-Agents
Gemini 3.0 Pro 18.4%
Gemini 3.1 Pro 33.5%

工具调用成功率也提升了约 82%。

和 Deep Think 模式的区别

Deep Think(2 月 13 日)是专用推理模式,给足思考时间,代价是延迟高。

3.1 Pro 是实用模式,延迟正常,但用了一些蒸馏技术把 Deep Think 的推理能力迁移过来,保留了大部分推理提升,延迟回到可接受范围。

对开发者的意义

77.1% 在 ARC-AGI-2 上意味着这个模型对复杂抽象问题的处理能力已经相当强。用在需要理解复杂规则、跨步骤推理的产品里,是可用的选择。

幻觉率降到 44% 仍然不低,但对需要长文档理解、多步骤推理的场景,3.1 Pro 比上一代可用性提升明显。