新模型性能炸裂?72B参数就能做到?开源代码,靠谱吗?

2025-10-18 10:55:27 作者:Vali编辑部

深夜的实验室里,Kimi团队突然亮起一盏灯。他们悄悄发布了新模型——开源代码模型Kimi-Dev,这个消息像一颗石子投入平静的湖面,在技术圈掀起波澜。在SWE-bench Verified测试中,Kimi-Dev以60.4%的准确率刷新了开源模型的性能纪录,这个成绩足以让不少业内人士重新审视开源模型的潜力。

这款参数量仅72B的模型,展现出的编程能力让不少同行感到惊讶。它在多个测试场景中表现不俗,甚至在与某些闭源模型的对比中占据优势。有技术爱好者表示,月之暗面团队的实力可能被低估了,他们的模型水平或许已经接近甚至超越了某些商业模型。

Kimi-Dev的发布引发了不少讨论。有人注意到,这个模型采用MIT协议,权重和代码都已公开,甚至还有网友制作了量化版本。这种开放的态度让不少开发者感到振奋,毕竟透明的模型更容易获得信任。现在,大家最关心的问题是:Kimi-Dev到底凭借什么在测试中取得如此优异的成绩?

模型扮演两种角色,在测试中自我博弈

目前,Kimi-Dev的完整技术报告还未正式发布,但官方已经透露了一些关键技术细节。这款模型的核心设计是让BugFixer和TestWriter两种角色协同工作,两者都基于相同的最小框架,包含两个阶段的训练过程。

文件定位是第一步,模型需要快速找到需要修改的正确文件。接下来是代码编辑,这一步既包括修正现有代码中的问题,也包括编写新的单元测试代码。这种双角色设计让模型在处理复杂代码时更具灵活性。

为了增强模型的先验知识,Kimi团队以Qwen 2.5-72B为基础模型,使用约1500亿高质量真实数据进行中期训练。他们收集了数百万个GitHub issue和PR提交,让模型学习人类开发者如何推理并解决实际问题。这种训练方式让模型在面对真实场景时更有底气。

训练过程中,Kimi团队还特别注意数据净化,确保训练数据中不包含SWE-bench Verified的内容。这种谨慎的态度让模型在测试时不会出现"提前知道答案"的情况,更贴近真实应用场景。

经过中期训练和监督微调后,模型在文件定位方面表现突出。接下来的强化学习阶段重点提升代码编辑能力。这个阶段采用了Kimi k1.5中的策略优化方法,主要有三个关键设计。

首先是仅基于结果的奖励机制。训练时只用代码在Docker环境中的最终执行结果作为奖励,成功为1,失败为0。这种设计确保模型生成的解决方案既正确又符合实际开发标准。相比传统方法,这种奖励机制更直接地指向最终目标。

其次是高效提示集的使用。通过过滤掉在多样本评估下成功率为零的提示,让模型更高效地进行大批量训练。这种筛选方式让训练过程更聚焦于真正有效的提示。

第三个设计是正向示例强化,也就是在训练过程中,模型会将之前解决的问题方案重新纳入当前训练批次。这种做法让模型不断巩固和强化成功的解决模式,形成良性循环。

经过强化学习后,模型能够同时掌握两种角色。在测试时,它会采用自我博弈机制,协调Bug修复和测试编写的能力。这种自我博弈让模型在不同任务之间找到最佳平衡点。

Kimi-Dev-72B采用标准Agentless设置,为每个问题生成最多40个补丁候选和40个测试候选。这种多样化输出让模型在面对复杂问题时有更多选择空间。

在测试过程中,观察到明显的规模效应。随着训练规模的扩大,模型的表现呈现出指数级增长。这种现象说明模型的潜力远未被完全挖掘。

Kimi团队表示,更多技术细节将在后续报告中公布。目前,他们已经为开发者准备了完整的训练数据和模型权重,让所有人能够亲身体验这个模型的性能。

下一步,Kimi团队计划探索更复杂的软件工程任务。他们打算将模型与流行的IDE、版本控制系统和CI/CD流水线进行更深入的集成。这种整合会让开发者在日常工作中更自然地使用这个模型。

项目主页:https://www.valimart.net/

GitHub:https://www.valimart.net/

HuggingFace:https://www.valimart.net/