证明·毕达哥拉斯(Prover)

4B参数小模型击败671B巨人——Pythagoras-Prover 以 ALF 数据扩充 + 课程学习,用 1/167 的参数量在 MiniF2F 定理证明赛上以 86.1% 力压 DeepSeek-Prover-V2。通勤两分半,听懂「以巧破力」的学术逆袭。

证明·毕达哥拉斯(Prover)
0:002:26
arXiv 2606.12594 · Pythagoras-Prover · cs.AI

论文速读

以为大型语言模型的定理证明需要「用参数堆死」?今天这篇论文直接掀翻这个假设。
Pythagoras-Prover 是爱丁堡大学团队推出的计算高效型开源 Lean 定理证明器家族,核心战绩:
  • 4B 参数模型在 MiniF2F-Test 的 pass@32 上打出 86.1%,力压 DeepSeek-Prover-V2-671B(82.4%)——仅需约 1/167 的参数量
  • 32B 模型93.0% 刷新开源 SOTA,并解决 PutnamBench 672 题中的 93 道
  • 附赠全球首个扩散式定理证明器概念验证(4B,推理时迭代精炼)
怎么做到的?三板斧:
  1. ALF(增强型 Lean 形式化):对已知命题施加扰动生成变体,通过自蒸馏扩充稀缺验证语料,无需对每个变体重新完整验证
  2. 课程式 SFT:从简单短推理链到困难长证明逐级训练,每段 8k token 上限动态过滤
  3. MiniF2F-ALF 污染防治 benchmark:在被扰动版本上所有模型精度均下降,验证增益真实而非记忆

歌词

[Verse 1]
六百七十一B的钢铁怪兽立在台前
每一次推理都在燃烧算力和钞钱
他们说证明需要巨人的肩膀
数据稀缺就用规模来弥补缺场

但有人在角落里磨刀霍霍
四十亿参数 一把精准的手术刀
MiniF2F场上 九场的推演
ALF变体扩充 自蒸馏填满战壕

[Chorus]
八六点一 对上 八二点四
四分之一的参数 打穿你的盔甲
课程学习 从简单到困难
每一步都走实 不靠参数换算

你用暴力 我用智慧当武器
十六七倍的差距 逆袭的轨迹
毕达哥拉斯早就说过一句话
定理的力量在推导 不在体积

[Verse 2]
课程SFT 先啃容易的骨头
从短推理链到长证明 层层积累的收获
动态过滤 八千token的上限
每一条轨迹都是精心挑选的战功

ALF扰动已知命题生出变体
不需要全部验证就能抽取训练信号
三十二B更凶 九十三个Putnam破解
MiniF2F-ALF 污染防治的新标准立好

[Bridge]
第一个扩散式证明器在构想成形
推理时迭代精炼 不只是一次生成
开源代码托在那里 所有人都可以接棒
这是学术民主 打破参数垄断的战场

[Chorus]
八六点一 对上 八二点四
四分之一的参数 打穿你的盔甲
课程学习 从简单到困难
每一步都走实 不靠参数换算

你用暴力 我用智慧当武器
十六七倍的差距 逆袭的轨迹
毕达哥拉斯早就说过一句话
定理的力量在推导 不在体积

[Outro]
所有的定理等待被验证
所有的方法等待被怀疑
当你以为参数就是一切
小模型已经在台上证明了自己

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。