新模型性能炸裂？72B参数就能做到？开源代码，靠谱吗？

2025-10-18 10:55:27 作者：Vali编辑部

深夜的实验室里，Kimi团队突然亮起一盏灯。他们悄悄发布了新模型——开源代码模型Kimi-Dev，这个消息像一颗石子投入平静的湖面，在技术圈掀起波澜。在SWE-bench Verified测试中，Kimi-Dev以60.4%的准确率刷新了开源模型的性能纪录，这个成绩足以让不少业内人士重新审视开源模型的潜力。

这款参数量仅72B的模型，展现出的编程能力让不少同行感到惊讶。它在多个测试场景中表现不俗，甚至在与某些闭源模型的对比中占据优势。有技术爱好者表示，月之暗面团队的实力可能被低估了，他们的模型水平或许已经接近甚至超越了某些商业模型。

Kimi-Dev的发布引发了不少讨论。有人注意到，这个模型采用MIT协议，权重和代码都已公开，甚至还有网友制作了量化版本。这种开放的态度让不少开发者感到振奋，毕竟透明的模型更容易获得信任。现在，大家最关心的问题是：Kimi-Dev到底凭借什么在测试中取得如此优异的成绩？

模型扮演两种角色，在测试中自我博弈

目前，Kimi-Dev的完整技术报告还未正式发布，但官方已经透露了一些关键技术细节。这款模型的核心设计是让BugFixer和TestWriter两种角色协同工作，两者都基于相同的最小框架，包含两个阶段的训练过程。

文件定位是第一步，模型需要快速找到需要修改的正确文件。接下来是代码编辑，这一步既包括修正现有代码中的问题，也包括编写新的单元测试代码。这种双角色设计让模型在处理复杂代码时更具灵活性。

为了增强模型的先验知识，Kimi团队以Qwen 2.5-72B为基础模型，使用约1500亿高质量真实数据进行中期训练。他们收集了数百万个GitHub issue和PR提交，让模型学习人类开发者如何推理并解决实际问题。这种训练方式让模型在面对真实场景时更有底气。

训练过程中，Kimi团队还特别注意数据净化，确保训练数据中不包含SWE-bench Verified的内容。这种谨慎的态度让模型在测试时不会出现"提前知道答案"的情况，更贴近真实应用场景。

经过中期训练和监督微调后，模型在文件定位方面表现突出。接下来的强化学习阶段重点提升代码编辑能力。这个阶段采用了Kimi k1.5中的策略优化方法，主要有三个关键设计。

首先是仅基于结果的奖励机制。训练时只用代码在Docker环境中的最终执行结果作为奖励，成功为1，失败为0。这种设计确保模型生成的解决方案既正确又符合实际开发标准。相比传统方法，这种奖励机制更直接地指向最终目标。

其次是高效提示集的使用。通过过滤掉在多样本评估下成功率为零的提示，让模型更高效地进行大批量训练。这种筛选方式让训练过程更聚焦于真正有效的提示。

第三个设计是正向示例强化，也就是在训练过程中，模型会将之前解决的问题方案重新纳入当前训练批次。这种做法让模型不断巩固和强化成功的解决模式，形成良性循环。

经过强化学习后，模型能够同时掌握两种角色。在测试时，它会采用自我博弈机制，协调Bug修复和测试编写的能力。这种自我博弈让模型在不同任务之间找到最佳平衡点。

Kimi-Dev-72B采用标准Agentless设置，为每个问题生成最多40个补丁候选和40个测试候选。这种多样化输出让模型在面对复杂问题时有更多选择空间。

在测试过程中，观察到明显的规模效应。随着训练规模的扩大，模型的表现呈现出指数级增长。这种现象说明模型的潜力远未被完全挖掘。

Kimi团队表示，更多技术细节将在后续报告中公布。目前，他们已经为开发者准备了完整的训练数据和模型权重，让所有人能够亲身体验这个模型的性能。

下一步，Kimi团队计划探索更复杂的软件工程任务。他们打算将模型与流行的IDE、版本控制系统和CI/CD流水线进行更深入的集成。这种整合会让开发者在日常工作中更自然地使用这个模型。

项目主页：https://www.valimart.net/

GitHub：https://www.valimart.net/

HuggingFace：https://www.valimart.net/