Gemini Reasoner 发布：第一次在复杂推理上超越人类平均

Simi 收录于 AI

2026-01-05 约 692 字预计阅读 2 分钟

发生了什么

Google DeepMind 在 2026 年 1 月 5 日发布了 Gemini Reasoner。

这不是 Gemini 的常规版本迭代。这是一款专门针对复杂推理优化过的模型，核心突破是跨模态逻辑推理能力——能同时理解文本、图像、音频，并在这几种模态之间做深层语义推理。

在官方公布的基准测试中：

三个任务共用同一个评测集，所以实际上是同一个数字。但这已经足够让 Google 宣布它"超越人类平均水平"。

真正有意思的是 Nature Methods 预印本上披露的那个案例：

用 Gemini Reasoner 辅助发现三种潜在抗衰老化合物靶点。

流程是：输入候选分子的生物活性数据和已知的蛋白质相互作用网络，模型输出对蛋白质-化合物关系的假设，再由人类研究员验证。3 个假设经过实验验证有效。

这不是toy demo，是真实论文。

OpenAI 的 o3（2024 年 12 月发布）也是推理模型，但两者的路线不同：

o3: 纯文本链式推理，强化学习驱动
Gemini Reasoner: 原生多模态推理，DeepMind 的世界模型路线

o3 在数学和代码任务上更强，Gemini Reasoner 在需要跨模态理解的科学推理上更占优。

这是 AI 第一次在复杂跨模态推理任务上系统性超越人类平均。

不是某个单项选择题的超越，是在科学假设生成、因果推断、长程规划这三个真正考验"通用推理能力"的任务上同时超越。

上一个这样的标志还是 2024 年 GPT-4o 在 MMLU 上超越人类。但 MMLU 是选择题，推理深度远不及这次的任务。

超越平均水平不等于可以在实际科研流程中完全替代人类研究员。现在的 pipeline 是"模型生成假设，人类验证假设"，还是人在主导。

另外，92.3% 这个数字只在 DeepMind 官方披露的评测集上，还没有第三方复现。