Gemini Reasoner 发布:第一次在复杂推理上超越人类平均
目录
发生了什么
Google DeepMind 在 2026 年 1 月 5 日发布了 Gemini Reasoner。
这不是 Gemini 的常规版本迭代。这是一款专门针对复杂推理优化过的模型,核心突破是跨模态逻辑推理能力——能同时理解文本、图像、音频,并在这几种模态之间做深层语义推理。
数据
在官方公布的基准测试中:
| 任务 | Gemini Reasoner | 人类平均 |
|---|---|---|
| 科学假设生成 | 92.3% | ~75% |
| 因果推断 | 92.3% | ~70% |
| 长程规划 | 92.3% | ~65% |
三个任务共用同一个评测集,所以实际上是同一个数字。但这已经足够让 Google 宣布它"超越人类平均水平"。
实际应用案例
真正有意思的是 Nature Methods 预印本上披露的那个案例:
用 Gemini Reasoner 辅助发现三种潜在抗衰老化合物靶点。
流程是:输入候选分子的生物活性数据和已知的蛋白质相互作用网络,模型输出对蛋白质-化合物关系的假设,再由人类研究员验证。3 个假设经过实验验证有效。
这不是toy demo,是真实论文。
和 o3 的区别
OpenAI 的 o3(2024 年 12 月发布)也是推理模型,但两者的路线不同:
o3: 纯文本链式推理,强化学习驱动
Gemini Reasoner: 原生多模态推理,DeepMind 的世界模型路线o3 在数学和代码任务上更强,Gemini Reasoner 在需要跨模态理解的科学推理上更占优。
意义
这是 AI 第一次在复杂跨模态推理任务上系统性超越人类平均。
不是某个单项选择题的超越,是在科学假设生成、因果推断、长程规划这三个真正考验"通用推理能力"的任务上同时超越。
上一个这样的标志还是 2024 年 GPT-4o 在 MMLU 上超越人类。但 MMLU 是选择题,推理深度远不及这次的任务。
局限
超越平均水平不等于可以在实际科研流程中完全替代人类研究员。现在的 pipeline 是"模型生成假设,人类验证假设",还是人在主导。
另外,92.3% 这个数字只在 DeepMind 官方披露的评测集上,还没有第三方复现。