代码智能体缺这门课?Skywork-SWE能让它少踩坑吗?软件工程课,代码智能体真的需要吗?
在软件工程领域,代码修复的复杂性往往超出开发者预期。以Python生态中的Astropy库为例,一个看似简单的路径参数缺失问题,实则牵涉到FITS链接逻辑的重构,涉及多文件修改与代码块调整。这种修复任务的复杂程度,恰是当前智能体模型面临的最大挑战。
面对这一困境,昆仑万维推出的Skywork-SWE数据集提供了全新解决方案。这套系统性构建的真实工程数据,不仅包含Pydantic、SQLGlot等主流项目,更涵盖大量中小型仓库,形成高度贴近真实开发生态的任务分布。通过收集成千上万个GitHub仓库的实际修复任务,Skywork-SWE实现了从问题理解到代码修复的全流程闭环。
在数据构建过程中,Skywork-SWE采用三阶段递进策略:首先抓取12个流行Python库的PR实例,其次通过智能体框架生成修复轨迹,最终形成可验证的测试用例。这种数据生成方式,使模型在训练时能精准捕捉到代码修改的上下文关联,例如一个补丁可能涉及2个以上函数修改、6个代码块调整,甚至多达74行代码变更。
实验数据显示,基于Skywork-SWE训练的Skywork-SWE-32B模型,在SWE-bench Verified基准测试中取得47%准确度,超越同期参数规模的开源模型。更值得关注的是,其性能随数据规模增长呈现指数级提升,证明数据扩展对模型能力的持续赋能。特别是在TTS技术加持下,模型在Best of 8测试中达到47%正确率,展现出强大的泛化能力。
这一突破性进展揭示了LLM在软件工程任务中的数据Scaling规律:随着训练数据的持续扩展,模型性能呈现显著提升。Skywork-SWE的推出,标志着智能体训练范式从单纯参数堆砌转向高质量任务型数据驱动,为代码、软件工程乃至通用多模态智能体的训练提供了新标准。
从数据集构建到模型优化,从基准测试到实际应用,Skywork-SWE的完整技术链条展现出昆仑万维在智能体领域的深厚积累。这种以真实任务数据为核心的技术路线,正在重塑智能体发展的底层逻辑,为行业树立新的标杆。
文章来自公众号“机器之心”,作者“关注智能体的”