LLM Extended Thinking：让模型"多想一会儿"的工程实践

Simi 发布于 2026-02-20 收录于 AI

Extended Thinking（thinking budget）是 2026 年的标配能力。但怎么用好这个能力，哪些场景值得多花 token，都是工程问题。

AI Agent 浏览器自动化：Browser Use 和 Jina AI 的真实对比

Simi 发布于 2026-02-18 收录于 AI Agent

让 AI Agent 操作浏览器是 2026 年的热门方向。Browser Use 和 Jina AI 的 Browser 是两个主流方案。这篇文章实测对比，帮你选型。

Simi 发布于 2026-02-13 收录于 AI

2026 年 2 月 13 日，Google 发布 Gemini 3 的 Deep Think 模式，在 ARC-AGI-2 推理测试中达到 84.6%，距离 ARC Prize 定的「强 AGI 信号」红线 85% 只差 0.4%。

Simi 发布于 2026-02-12 收录于 AI

Llama 4 Scout (17B)、Phi-4、Gemma 3 都发布了。2026 年初的小模型，生产环境表现如何？这篇文章给一个客观实测。

Simi 发布于 2026-02-05 收录于 AI

Google Gemini 2.0 推出了 Flash Thinking 模式，在编程任务上表现如何？这篇文章实测后给一个客观评价。

Simi 发布于 2026-02-05 收录于 AI

Anthropic 发布 Claude Opus 4.6。

官方对它的定位是"most capable model yet"——但真正的新东西不是模型参数，是 Agent Teams。