小米Mimo模型,能干哪些实用的AI设计? 你的服装、鞋履设计灵感,它能提供什么?
小米在AI领域又添新动作!
今天上午,小米正式推出其首款开源推理大模型-MiMo。这款模型通过25万亿token的预训练数据,结合MTP加速技术和规则化强化学习,再配合Seamless Rollout引擎,让7B参数的MiMo-7B在数理推理和代码生成上表现突出。从技术细节到实际应用,小米这次的布局让业内不少专家都感到意外。
受此消息影响,截至午间休市,小米股价上涨4.74%,总市值达到1.29万亿港元(约合人民币1.21万亿元)。这个数字背后,是市场对小米AI技术实力的认可。但具体到产品性能,还需要更深入的观察。
性能测评:硬核实力,超越标杆
MiMo-7B系列模型在多个权威的推理能力基准测试中取得了令人瞩目的成绩。特别是经过强化学习调优后的MiMo-7B-RL版本,在极具挑战性的数学竞赛级基准AIME 2025上,取得了55.4%的Pass@1分数。这个成绩比01-mini的50.7%高出近5个百分点。在AIME 2024上的得分也达到了68.2%。
在持续更新的算法代码生成基准LiveCodeBench v5上,MiMo-7B-RL得分57.8%,超越01-mini(53.8%)。在更新、更难的LiveCodeBench v6上,MiMo-7B-RL更是达到了49.3%,大幅领先01-mini(46.8%)和同级别模型。这个成绩说明,小米在代码生成任务上的优化效果显著。
从实际测试来看,MiMo-7B在数学推理和编程任务上的表现已经接近大型模型。尤其是在处理复杂逻辑问题时,其准确率和推理速度都有明显提升。这种表现对于实际应用场景来说,是一个重要的突破。
训练流程:从数据到模型,全链路优化
小米这次的模型开发采用了一套完整的训练体系。首先是数据准备,25万亿token的预训练数据量让模型具备了广泛的知识储备。接着是MTP加速技术,这种技术能够有效提升模型训练效率。
在强化学习环节,小米采用了规则化RL策略。这种策略让模型在训练过程中能更精准地学习到关键特征。配合Seamless Rollout引擎,训练速度提升了2.29倍,验证速度提升1.96倍。这个优化对实际应用来说意义重大,因为它能让模型更快地适应不同场景。
整个训练流程中,小米特别强调了数据处理的重要性。通过三阶段数据混合策略,让模型在不同阶段都能获得最合适的训练内容。这种精细化的训练方法,让MiMo-7B在多个测试中都表现优异。
核心贡献:推动推理模型新发展
MiMo-7B的研发不仅带来了一个性能卓越的模型,也为业界贡献了宝贵的经验和技术突破。首先是全流程优化理念,强调从预训练抓起,通过数据、策略、架构全方位优化,奠定模型推理潜力的重要性。
在技术实现上,小米提供了优化数据处理流程的范例。通过三阶段数据混合策略,让模型在不同训练阶段都能获得最合适的训练内容。这种创新实践为其他模型开发提供了参考。
强化学习方面,小米提出了针对代码任务的"测试难度驱动奖励"策略。这种策略让模型在训练时能更精准地学习到关键特征。同时,"易错数据重采样"策略也提高了训练的稳定性。
开源模型系列
MiMo-7B开源的模型系列包括:
MiMo-7B-Base:经过25万亿token预训练的基础模型,具备广泛的知识储备。
MiMo-7B-SFT:在Base模型基础上进行监督微调后的模型。
MiMo-7B-RL-Zero:直接从Base模型开始进行强化学习调优的模型。
MiMo-7B-RL:从SFT模型开始进行强化学习调优的最终高性能模型。
这些模型覆盖了从基础到优化的不同阶段,为开发者提供了丰富的选择。
技术报告:https://www.valimart.net/
模型开源地址:HuggingFace:https://www.valimart.net/
文章来自微信公众号 “Afunby的AI Lab”,作者Afunby