开源定理证明器,能帮服装鞋履设计带来什么新可能?DeepSeek团队的华人力量,背后有哪些技术秘密?
在数学定理证明领域掀起新风暴的Goedel-Prover-V2,用8B参数规模实现了对671B参数DeepSeek-Prover的超越。这项由普林斯顿、清华、英伟达等八家顶尖机构联合研发的开源模型,在PutnamBench基准测试中再次夺冠,展现出AI在形式化证明领域的新突破。
这场技术竞赛的胜负关键,在于模型架构的创新设计。Goedel-Prover-V2通过分层式数据合成技术,让模型在训练过程中逐步接触从简单到复杂的证明任务。就像教孩子学数学,先从加减法开始,再逐步引入乘除、方程等复杂概念。这种渐进式训练方式,让模型能更自然地掌握数学推理规律。
更值得关注的是验证器引导的自我修正机制。这个设计让模型像人类一样,能根据Lean编译器的反馈反复修改证明过程。就像写作文时老师逐句批改,模型会不断调整自己的证明步骤,最终形成更严谨的数学推理链。
在实际测试中,Goedel-Prover-V2展现出了惊人的性能优势。以miniF2F基准为例,8B参数模型在Pass@32测试中达到90.4%的准确率,而DeepSeek-Prover-671B仅获得82.4%。这意味着在同等算力下,Goedel-Prover-V2的效率提升了近15%。
这种性能飞跃源于模型平均技术的应用。研究团队通过将多个训练阶段的模型检查点进行融合,既保持了模型的多样性,又提升了整体表现。就像拼图游戏,每个碎片都保留了独特信息,组合起来形成更完整的图景。
在MathOlympiadBench测试中,Goedel-Prover-V2攻克了73个问题,比DeepSeek-Prover-671B多出23个。这个差距在数学竞赛领域意味着什么?相当于在国际奥赛中,Goedel-Prover-V2能比对手多解出近三分之一的题目。
技术团队的创新不止于此。他们采用的专家迭代与强化学习框架,让模型在形式化问题、生成证明、验证过程三个环节形成闭环。就像厨师制作佳肴,先确定食谱(形式化问题),再不断调整火候(生成证明),最后品尝定型(验证过程)。
这些技术革新带来的实际效果非常显著。在PutnamBench基准测试中,Goedel-Prover-V2用更少的算力解决了64道数学难题,比DeepSeek-Prover-671B多出14道。这种算力效率的提升,对实际应用意义重大。
从技术细节看,模型通过两轮自我修正流程,将证明质量提升到新高度。虽然计算开销比标准流程增加了约25%,但整体表现仍远超传统方法。这种平衡性设计,让模型既保持了高效性,又不失精确度。
在核心作者阵容中,来自普林斯顿大学的Yong Lin博士有着丰富的实战经验。他曾担任阿里高级机器学习工程师,对大模型后训练技术有深入研究。这种学术与产业的结合,为项目提供了坚实的技术基础。
团队成员还包括普林斯顿大学运筹学博士生Shange Tang,他的研究方向涵盖统计学与机器学习。这种跨学科背景,让团队在技术攻关时能从多个角度寻找解决方案。
清华大学出身的Bohan Lyu博士,在自然语言处理领域有扎实积累。这种技术优势,为模型在形式化语言处理方面的表现提供了重要支撑。
来自北京大学的Jui-Hui Chung博士,将物理研究经验转化为数学推理能力。这种跨界思维,让团队在解决复杂问题时能突破传统方法的局限。
项目负责人Chi Jin教授,带领团队完成了从理论到实践的完整转化。他的研究方向涵盖大模型推理、强化学习等多个领域,这种全面的视角让团队在技术攻关时能把握关键方向。
这些核心成员的学术背景与产业经验相结合,为项目的成功提供了坚实保障。从技术架构到实际应用,每个环节都体现了团队的综合能力。
在数学定理证明领域,Goedel-Prover-V2的出现标志着AI技术迈出了重要一步。它不仅在性能上超越传统方法,更在技术设计上展现了创新思维。这种突破,或将为数学研究带来新的可能性。