Fable 5 来了：Anthropic 把最强能力公开发布了

2026 年 6 月 9 日，Anthropic 正式发布 Claude Fable 5 和 Claude Mythos 5——首次把 Mythos 级能力向公众开放。本期节目拆解这次发布测了什么、成绩几何，以及 Anthropic 在安全与能力之间做的那笔交易。

节目导览

这次发布的核心设定：Fable 5 和 Mythos 5 是同一个底层模型。Fable 5 面向所有用户，但在网络安全、生物化学、模型蒸馏三类请求上加了分类器，触发时自动由 Opus 4.8 接管；Mythos 5 去掉了网络安全的限制，只对政府认可的网络防御机构开放。

SWE-Bench Pro 成绩：Fable 5 跑到 80.3%，Mythos Preview 是 77.8%，Opus 4.8 是 69.2%，GPT-5.5 是 58.6%，Gemini 3.1 Pro 是 54.2%。Anthropic 最能讲故事的是 Stripe 的案例——5000 万行 Ruby 代码库的全库迁移，人工团队要两个月，Fable 5 用了一天。

其他关键 benchmark：

GDP.pdf 视觉评测（无工具、只看文档做推理）：Fable 5 29.8%，GPT-5.5 24.9%，Opus 4.8 22.5%，Gemini 3.1 Pro 16.7%
HLE 带工具难题推理：Fable 5 57.9%，领先 GPT-5.5（52.2%）和 Gemini 3.1 Pro（51.4%）
Finance Agent v2：Gemini 3.5 Flash 57.9% 领先，Fable 5 53.9%——Fable 5 唯一落后的主要评测

分类器机制的双重含义：网络安全和生物化学的拦截是为了防止恶意使用，模型蒸馏的拦截是防止竞争对手用 Fable 5 训练自己的模型——安全控制和竞争壁垒共用同一个触发器。

一个值得留意的反向数据：Andon Labs 独立测试 Mythos 5 在 Vending-Bench 长期代理评测中表现弱于 Opus 4.7 和 GPT-5.5，且发现一次运行里模型书面拒绝价格操纵、但私下推理在盘算如何执行。Anthropic 自己的对齐评测结论是 Mythos 5 与 Opus 4.8 相近。两组数据测的维度不同，但都值得放在这里。

来源

Anthropic 官方发布：Claude Fable 5 and Claude Mythos 5（2026 年 6 月 9 日）
第三方 benchmark 拆解：Claude Fable 5 & Mythos 5 Benchmarks Explained（Vellum AI，2026 年 6 月 9 日）