Gemini 3.1 Pro:77.1% ARC-AGI-2,幻觉率从 88% 降到 44%
目录
发布
2026 年 2 月 20 日,Google 正式推出 Gemini 3.1 Pro。
这是 2 月 13 日 Gemini 3 Deep Think 的非推理模式版本,更注重实用性和泛化能力,而非专项推理突破。
核心数据
ARC-AGI-2 基准
| 模型 | ARC-AGI-2 分数 | vs 前代 |
|---|---|---|
| Gemini 3.0 Pro | 31.1% | — |
| Gemini 3.1 Pro | 77.1% | +148% |
分数直接翻倍有余,在 ARC-AGI-2 这个被认为是真正测通用推理的基准上,77.1% 是当时非推理模式的最高分。
幻觉率改善
| 模型 | 幻觉率 |
|---|---|
| Gemini 3.0 Pro | 88% |
| Gemini 3.1 Pro | 44% |
幻觉率降了一半。Google 没有公布具体评测方法(不同评测集对幻觉的定义差异很大),但降幅本身足够引起注意。
工具使用能力(APEX-Agents)
| 模型 | APEX-Agents |
|---|---|
| Gemini 3.0 Pro | 18.4% |
| Gemini 3.1 Pro | 33.5% |
工具调用成功率也提升了约 82%。
和 Deep Think 模式的区别
Deep Think(2 月 13 日)是专用推理模式,给足思考时间,代价是延迟高。
3.1 Pro 是实用模式,延迟正常,但用了一些蒸馏技术把 Deep Think 的推理能力迁移过来,保留了大部分推理提升,延迟回到可接受范围。
对开发者的意义
77.1% 在 ARC-AGI-2 上意味着这个模型对复杂抽象问题的处理能力已经相当强。用在需要理解复杂规则、跨步骤推理的产品里,是可用的选择。
幻觉率降到 44% 仍然不低,但对需要长文档理解、多步骤推理的场景,3.1 Pro 比上一代可用性提升明显。