GPT-5 获得全球首批 AI 代理认证：金融交易和医疗咨询从此可以 AI 独立决策？

Simi 发布于 2026-01-05 收录于 AI

2026 年 1 月 5 日，OpenAI 宣布 GPT-5 正式通过全球首批 AI 代理认证（AIAA），获准在金融交易、医疗咨询等高风险场景作为独立决策代理运行。这是 AI 监管的一次重要尝试。

Gemini Reasoner 发布：第一次在复杂推理上超越人类平均

Simi 发布于 2026-01-05 收录于 AI

2026 年 1 月 5 日，Google DeepMind 发布 Gemini Reasoner。这是第一个在科学假设生成、因果推断、长程规划等复杂跨模态推理任务上超越人类平均水平的模型。

Simi 发布于 2026-01-03 收录于 AI Agent

大家都在说 AI Agent，但"Agent"这个词已经被用烂了。这篇文章用分级框架来评估 Agent 的实际自主能力，从"只会聊天"到"完全自主"。

Simi 发布于 2026-01-02 收录于 AI

2026 年 1 月 2 日，Google DeepMind 发布 SIMA-Real，第一个具备实时物理世界交互能力的通用 AI 代理。已在 Boston Dynamics Atlas 机器人上完成开门、取物、避障全流程测试，零样本迁移。

Simi 发布于 2026-01-01 收录于 AI

2026 年 1 月 1 日，Meta 发布 Llama4-Swarm，第一个支持上千个 AI 智能体实时协同决策的开源模型。这是开源 AI 协作能力的重大飞跃。

Simi 发布于 2025-12-27 收录于 AI

Claude 3.7、GPT-4o、Gemini 2.0 怎么选？这篇文章给一个实用的选型框架。