证明·毕达哥拉斯（Prover）

arXiv 2606.12594 · Pythagoras-Prover · cs.AI

论文速读

以为大型语言模型的定理证明需要「用参数堆死」？今天这篇论文直接掀翻这个假设。

Pythagoras-Prover 是爱丁堡大学团队推出的计算高效型开源 Lean 定理证明器家族，核心战绩：

4B 参数模型在 MiniF2F-Test 的 pass@32 上打出 86.1%，力压 DeepSeek-Prover-V2-671B（82.4%）——仅需约 1/167 的参数量
32B 模型以 93.0% 刷新开源 SOTA，并解决 PutnamBench 672 题中的 93 道
附赠全球首个扩散式定理证明器概念验证（4B，推理时迭代精炼）

怎么做到的？三板斧：

ALF（增强型 Lean 形式化）：对已知命题施加扰动生成变体，通过自蒸馏扩充稀缺验证语料，无需对每个变体重新完整验证
课程式 SFT：从简单短推理链到困难长证明逐级训练，每段 8k token 上限动态过滤
MiniF2F-ALF 污染防治 benchmark：在被扰动版本上所有模型精度均下降，验证增益真实而非记忆

论文地址：https://arxiv.org/abs/2606.12594

歌词

[Verse 1]
六百七十一B的钢铁怪兽立在台前
每一次推理都在燃烧算力和钞钱
他们说证明需要巨人的肩膀
数据稀缺就用规模来弥补缺场

但有人在角落里磨刀霍霍
四十亿参数 一把精准的手术刀
MiniF2F场上 九场的推演
ALF变体扩充 自蒸馏填满战壕

[Chorus]
八六点一 对上 八二点四
四分之一的参数 打穿你的盔甲
课程学习 从简单到困难
每一步都走实 不靠参数换算

你用暴力 我用智慧当武器
十六七倍的差距 逆袭的轨迹
毕达哥拉斯早就说过一句话
定理的力量在推导 不在体积

[Verse 2]
课程SFT 先啃容易的骨头
从短推理链到长证明 层层积累的收获
动态过滤 八千token的上限
每一条轨迹都是精心挑选的战功

ALF扰动已知命题生出变体
不需要全部验证就能抽取训练信号
三十二B更凶 九十三个Putnam破解
MiniF2F-ALF 污染防治的新标准立好

[Bridge]
第一个扩散式证明器在构想成形
推理时迭代精炼 不只是一次生成
开源代码托在那里 所有人都可以接棒
这是学术民主 打破参数垄断的战场

[Chorus]
八六点一 对上 八二点四
四分之一的参数 打穿你的盔甲
课程学习 从简单到困难
每一步都走实 不靠参数换算

你用暴力 我用智慧当武器
十六七倍的差距 逆袭的轨迹
毕达哥拉斯早就说过一句话
定理的力量在推导 不在体积

[Outro]
所有的定理等待被验证
所有的方法等待被怀疑
当你以为参数就是一切
小模型已经在台上证明了自己