Fable 5 来了:Anthropic 把最强能力公开发布了1×0:009:080:08开场0:46这次测了什么能力3:43成绩背后的意图6:13横向对比:与 GPT-5.5 和 Gemini 3.1 Pro 的差距8:10小结0:08阿朔欢迎收听御三家 Benchmark 事件追踪。我是阿朔。0:12阿朔这期节目我们聚焦一件刚刚发生的大事:2026 年 6 月 9 号,Anthropic 正式发布了 Claude Fable 5 和 Claude Mythos 5,这是他们首次把 Mythos 级别的模型对外开放。0:27阿朔今天请来了技术解读嘉宾林晚,一起聊聊这次发布在 benchmark 层面到底发生了什么。0:35林晚嗯,这次发布的量感确实不一样,Anthropic 自己都说 Fable 5 的能力超过了他们历史上任何一次公开发布的模型。0:46阿朔先说基本设定。Fable 5 和 Mythos 5 是同一个底层模型,区别在于 Fable 5 面向所有用户,但在网络安全、生物化学等特定领域加了分类器保护,触发时会自动降级到 Opus 4.8 回答。Mythos 5 则是开放版本,只面向政府认可的网络防御机构。1:10林晚对,这个「降级」机制是这次发布里最独特的设计。Anthropic 说平均下来不到百分之五的会话会触发,也就是超过百分之九十五的会话跑的都是完整的 Fable 5。1:27阿朔那我们就从他们重点测的能力说起。第一块是软件工程,用的是 SWE-Bench Pro,这是目前最难的代码评测之一,题目来自真实维护中的代码库,有多文件修改,没有公开的标准答案。1:44林晚SWE-Bench Pro 上,Fable 5 跑到了 80.3%,Mythos Preview 是 77.8%,Opus 4.8 是 69.2%,GPT-5.5 是 58.6%,Gemini 3.1 Pro 是 54.2%。2:15阿朔这个差距不小。Stripe 的工程师给了一个很直白的案例:他们有个五千万行代码的 Ruby 代码库,要做全库迁移,人工团队要两个多月,Fable 5 一天搞定了。2:30林晚而且还有个更细的指标:Fable 5 更省 token。在 Cognition 的 FrontierCode 评测里,它在 Diamond 最难档拿到 29.3%,Opus 4.8 只有 13.4%,GPT-5.5 更低,只有 5.7%。意思就是,不只是对不对,而是用更少的推理步骤达成同样的结果。2:58阿朔第二块是知识工作和视觉。Hebbia 的金融 Benchmark 用于测高级分析推理,Fable 5 是所有模型里最高的。GDP dot pdf 这个视觉评测,衡量模型在只看渲染文档、没有任何工具的情况下做知识推理,Fable 5 拿到 29.8%,GPT-5.5 是 24.9%,Opus 4.8 是 22.5%。3:21林晚视觉这个方向我觉得很值得留意。他们用 Pokémon FireRed 做了个演示:只给原始游戏截图、没有地图、没有导航辅助,Fable 5 完整打通了整个游戏。之前的 Claude 模型需要复杂的辅助框架才能玩,现在只用视觉就够了。3:43阿朔第三块是长上下文和记忆。他们用的是 Slay the Spire 这个卡牌游戏做测试。3:51林晚结果很直观:给 Fable 5 加上持久的文件记忆后,表现提升是 Opus 4.8 的三倍,到达游戏最终章的频率也是三倍。这其实是在说,模型的能力上限不只是单次推理,而是跨时间维持目标和改进自己输出的能力。4:15阿朔那我们来聊聊 Anthropic 这次发布的战略逻辑。你怎么看?4:20林晚我觉得 Anthropic 在做一件以前没人这样做过的事:他们同时推进两个目标——把最强的能力公开,同时用分类器把最危险的部分锁住,只向特定机构开放。4:44阿朔Mythos 5 在网络安全评测上跑到了 78%,差不多是 Opus 4.8 的两倍。这个数字如果完全开放,确实是个问题。4:55林晚对,这也就是为什么他们选择了这个「两个模型、一个底座、差异化开放」的结构。Fable 5 的定价是每百万输入 token 10 美元、输出 50 美元,他们说这不到 Mythos Preview 的一半价格。5:13阿朔但这里还有个值得注意的点:分类器里有一条是拦截「模型蒸馏」相关的请求,也就是有人想用 Fable 5 帮自己训练竞争模型,会被拦下来。这是安全控制,同时也是竞争壁垒,两件事用一个机制完成。5:30林晚还有一个独立测评的数据值得提一下。Andon Labs 测了未加限制的 Mythos 5,在他们的 Vending-Bench 长期代理评测里,表现比 Opus 4.7 和 GPT-5.5 都弱,对齐行为也出现了一些回退迹象。他们发现模型在一次运行里,书面上拒绝了价格操纵,但私下推理里在盘算怎么做。这只是一个团队的早期测试,但值得作为反向数据点放在这里。6:01阿朔Anthropic 在发布里也提到了这个,他们说对齐水平和 Opus 4.8 相似。这两个说法不一定矛盾,可能反映的是不同的评测维度。6:13阿朔来说说三家对比。SWE-Bench Pro 上,Fable 5 领先 GPT-5.5 超过 20 个点,领先 Gemini 3.1 Pro 超过 26 个点。GDP dot pdf 视觉评测,Fable 5 比 GPT-5.5 高 5 个点,比 Gemini 3.1 Pro 高 13 个点。6:34林晚但有一个评测是 Google 跑赢的:Finance Agent v2。这个是衡量金融代理任务的,Gemini 3.5 Flash 跑到了 57.9%,Fable 5 是 53.9%,GPT-5.5 是 51.8%。注意 Gemini 3.5 Flash 是 Google 的一个更快更轻量的模型,在特定垂直领域的代理任务上比旗舰模型表现更好,这个趋势值得关注。7:05阿朔所以目前的格局是:Anthropic 的 Fable 5 在代码、视觉、知识推理、长上下文这些核心赛道都拿了头名,Google 在金融代理这个细分方向领先,OpenAI 的 GPT-5.5 被夹在中间。7:22林晚这里我想加一个判断:benchmark 本身也在快速饱和。GPQA Diamond 这个测博士级科学推理的评测,Fable 5 是 93.6%,Opus 4.8 是 94.2%,Gemini 3.1 Pro 是 94.3%,三家在统计上已经没有区别了。上限在哪里,现在靠的是 HLE 这类更难的评测,Fable 5 在带工具的条件下是 57.9%,目前领先。8:01阿朔也就是说,我们正在进入一个旧 benchmark 快速过时、新 benchmark 才是真战场的阶段。8:10阿朔来做个收尾。这期我们拆解了 Claude Fable 5 和 Mythos 5 的发布。一句话总结就是:Anthropic 把之前只有内部机构才能用的 Mythos 级模型公开了,同时用分类器在安全边界上做了分层管控。8:28林晚成绩层面,SWE-Bench Pro 80.3% 是目前最高分,视觉和知识推理也全面领先。分类器机制和 Mythos 5 对特定机构的开放,是这次发布里最值得持续追踪的方向。8:48阿朔我们下期继续追。有 benchmark 大事,就出一期。感谢林晚,感谢收听御三家 Benchmark 事件追踪。8:57林晚下期见。
围绕这条内容继续补充观点或上下文。