开源多智能体技术,能更快做出AI设计吗?蚂蚁平台能复制金牌IMO成果吗?
2025年的IMO大赛掀起了AI技术的热潮,这场数学竞赛的硝烟还未散去,各大实验室和高校团队已经展开激烈角逐。从7月19日到23日,全球顶尖AI模型在IMO赛场上的表现引发热议,最终在7月20日,OpenAI和DeepMind等团队成功解出5道题,引发数学界关注。
7月23日,哈佛和加州大学洛杉矶分校的两位学生在arXiv平台发布论文,系统性解析了IMO解题方法论。他们采用Gemini 2.5 Pro+自研的多轮验证框架,在48小时内开源了完整代码,为后续研究提供重要参考。
蚂蚁集团的AWorld项目团队也加入这场AI竞赛:7月24日启动的实验中,仅用6小时就复现并开源DeepMind的5道题解,并推出可一键运行的多智能体IMO系统。
这场竞赛的核心看点在于:传统单智能体框架是否能应对IMO级复杂推理?AWorld团队的实验给出了明确答案:多智能体系统在解题效率和准确性上显著优于单智能体。
单模的「不可能三角」:为什么必须上多智能体?
单个基础模型如Gemini 2.5 Pro,在IMO竞赛中面临明显挑战。虽然第1、4题在小概率下能一次推理完成,但其余4题必须依赖多智能体协同才能解答。这说明了一个事实:IMO级问题已超出单模型的承载能力。
AWorld的实测数据更直观:单模尝试第3题连续10次推理均失败,而多智能体协同仅需5轮迭代就能生成完整解答。这揭示了多智能体协作的核心价值。
「多智能体协同的智力上限,有可能超越其依赖的单个模型」的本质是什么?
AWorld团队从三个维度进行了深入分析:
构建最优输入:从「好问题」到「完美上下文」
多智能体的核心优势在于能动态构造高质量输入。传统模型的输出质量取决于输入质量,而多智能体系统通过生成中间思想、批判性反馈和改进建议,构建出远超初始提问的「超级上下文」,从而解锁模型的深层能力。
实现「元认知」:为系统外挂一个「反思模块」
元认知能力是高级智能的重要标志。单个模型虽能完成解题,但缺乏自我评估和修正能力。多智能体系统通过角色扮演实现元认知,能发现逻辑漏洞、提出改进建议,避免陷入思维定式。
降低「信息熵」:通过交互减少不确定性
IMO问题的解空间具有高度不确定性,每轮多智能体交互都在提供新约束。例如验证者指出「第一步假设A缺乏证据」,这种反馈能显著减少后续探索路径,提升求解效率。
综上所述,多智能体协同的优越性源于其智能化流程。通过协作分解与迭代修正,系统能有效释放基础模型的潜力,最终实现超越个体能力之和的群体智能。
AWorld的「六小时魔法」:把论文变成可运行系统
面对IMO竞赛的挑战,相比展示模型性能,能够复现解题过程更有利于技术演进。AWorld的复现方式提供了重要思路:
核心结构:采用「做题家+验证者」双智能体对话机制,两者均基于Gemini 2.5 Pro构建。做题家生成数学解答,验证者扮演IMO考官角色进行严格验证,通过多轮对话优化解答质量。
核心要素:设计完整的对话循环机制,包括自动检测终止条件、记录完整对话历史、基于反馈的解答重构策略。这些设计有效提升了系统稳定性。
强大的工具与模型生态
模型即插即用:通过统一接口,30秒内可切换OpenAI、Gemini、Claude等任一大模型,方便对比测试与成本优化。
MCP协议支持:允许智能体调用其他模型或智能体作为工具,所有工具均在安全沙箱中执行,保障企业级安全。
生产级的稳健性与可观测性
全链路可观测性:提供智能体决策、工具调用全过程的追踪、指标与日志,让复杂系统行为清晰透明。
精密的上下文与内存管理:支持长短期记忆和复杂编排,确保智能体在长周期任务中保持状态。
支持模型持续进化的学习闭环
开放训练接口:AWorld不仅是执行框架,更是进化平台。提供开放接口,可与主流训练框架结合,利用智能体在真实任务中产生的交互数据对底层模型进行训练。
实现智能体自我进化:通过「数据-训练-部署」闭环,让智能体在特定领域变得越来越「聪明」,构建真正的专家系统。
如何体验「IMO级多智能体」?
3步运行(详见README.md):
一键准备环境
进入项目目录AWorld/examples/imo,运行./setup_env.sh脚本。自动创建独立Conda环境并安装所有依赖。
配置API密钥
复制模板文件cp.env_template.env,编辑生成的.env文件,填入大模型API密钥、模型名称和接口地址。
激活环境并运行
激活环境后,执行python run.py —q imo4命令解决IMO2025第4题。
写在最后:IMO只是开始
AWorld的复现实验得出一个激进结论:当前多智能体系统的数学能力已超越99%人类选手(测试集有限)。
当单模在IMO折戟时,多智能体系统已证明:AI的智能上限,不仅取决于模型规模,更在于如何组织协作。
多智能体协作可能是一条通往更高群体智能的有效路径。更震撼的是未来潜力:这套系统正在作为reward model训练下一代模型——用多智能体生成的「高阶推理轨迹」作为训练数据,相当于让模型从IMO金牌选手的草稿纸里学习。
AWorld团队透露正在测试「多智能体+形式化验证」组合,目标直指Lean4形式化证明。
IMO 2026,可能将是人类最后一次有机会战胜AI的数学竞赛。