目录

Claude Mythos:Anthropic 发布了最强模型,然后拒绝公开

2026 年 4 月 7 日,Anthropic 发布了 Claude Mythos Preview

83.1% on CyberGym. 93.9% on SWE-bench Verified. 然后说:这个模型你们用不了。

不是不发布,是发布,但不给你用。

这是 AI 行业第一次这么干。

为什么这个决定值得关注

Anthropic 的理由是:这个模型在受控测试里自主发现了数千个零日漏洞——不是测试集里的,是真实存在的、存在了数十年的、从未被人发现过的漏洞。

放到攻击者手里,这是核武器。放到防御者手里,这是提前扫雷。

所以他们做了个选择:只给防御者。

从逻辑上看,这个决定是合理的。漏洞这东西,一旦公开,修复永远慢半拍。与其赌攻击者有良心,不如一开始就别让模型流出。

Benchmark 数据:66.6% 到 83.1% 意味着什么

benchmark 变化很能说明问题:

评测集 Opus 4.6 Mythos Preview
CyberGym(漏洞复现) 66.6% 83.1%
SWE-bench Verified 93.9%
GPQA Diamond 94.6%

66.6% → 83.1% 不是靠更大的模型硬堆出来的。CyberGym 是一个需要真正理解漏洞机理的评测集,不是背答案能过的。

这说明后训练层面有实质突破。

Project Glasswing 是什么

一个合作伙伴项目。名单里的公司值得关注:AWS、Apple、Cisco、CrowdStrike、Google、JPMorganChase、Microsoft、Nvidia、Linux Foundation、Palo Alto Networks。

这些公司有一个共同点:要么掌握关键基础设施,要么手上有大量闭源软件。银行的核心系统、芯片公司的固件、云平台的底层——这些地方几十年没人敢动的遗留代码,才是 Claude Mythos 最可能挖出东西的地方。

有意思的是 Anthropic 自己说的:提供最高 1 亿美元额度的模型调用,用于防御性网络安全研究。

价格:史上最高

如果未来开放:

模型 输入 输出
Sonnet 4.6 $3/M $15/M
Mythos $25/M $125/M

8 倍价格。现在看来贵得离谱,但如果你想到这是在买"帮银行提前发现漏洞"的能力,似乎又没那么离谱。

Claude Mythos 对开发者的实际影响

短期内你用不到这个模型。

但几件事值得持续关注:

1. AI 安全研究的分水岭 66.6% 到 83.1%,意味着 AI 在漏洞发现上已经超过人类专家的平均水平。以后"让 AI 先扫一遍"会成为安全审计的标准流程。

2. 模型能力差距在扩大 SWE-bench 93.9% 说明这不是硬件红利,是算法突破。接下来的大模型迭代重点可能会从"更通用"转向"更专业"。

3. 监管会加速 一个模型强到发布者自己不敢公开——这个事实比任何政策文件都有说服力。各国监管机构会加速 AI 安全立法。

局限性和未解决的问题

这件事不只有光鲜的一面。

1. 闭门做决策,公众无法验证 Claude Mythos 有多强、漏洞是不是真的"数十年未发现",全是 Anthropic 自己说的。没有第三方审计,没有透明的技术报告。这种"自证清白"模式是 AI 安全的倒退,不是进步。

2. 合作伙伴的利益冲突 名单里的公司同时是安全厂商(CrowdStrike、Palo Alto Networks)和云平台(AWS、Google、Microsoft)。他们用 Claude Mythos 做漏洞发现,然后卖修复方案——这是把刀和绷带同时卖给同一个人。

3. 防御者的模型被攻击者超越只是时间问题 Claude Mythos 的能力不是秘密。攻击者早晚会做出自己的版本,甚至更强。Anthropic 的"防御者联盟"能保持领先的时间窗口未知。

这三个问题没有答案,Anthropic 也没有给出。知道这些问题存在,比盲目乐观更有价值。

总结

Claude Mythos 是第一个让我觉得"AI 能力边界"这个词有了实际含义的模型。

不是聊天机器人,不是辅助编程,是一个真的能发现人类没发现的漏洞的东西。

这种感觉,上一次还是 AlphaGo 赢了李世石那一刻。

延伸阅读