凯发,凯发k8,K8月之暗面又开源了!登顶全球第一还超了新版DeepSeek-R
k8凯发(中国)天生赢家·一触即发
凯发官网✿◈,疫苗研发✿◈!凯发k8官网入口✿◈,凯发天生赢家一触即发官网✿◈!凯发k8国际首页登录智东西6月17日报道✿◈,今日凌晨✿◈,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B✿◈。
该模型在SWE-bench Verified编程基准测试中取得了全球最高开源模型水平✿◈,以仅72B的参数量✿◈,成绩超过了刚于5月28日发布✿◈、参数量多达671B的新版DeepSeek-R1✿◈。
通过大规模强化学习进行了优化匿踪库卡隆套装✿◈。它能够自主修补Docker中的真实存储库凯发,凯发k8,K8✿◈,并且只有当整个测试套件通过时才会获得奖励匿踪库卡隆套装✿◈。这确保了解决方案的正确性和稳健性✿◈,并符合现实世界的开发标准✿◈。
Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和部署匿踪库卡隆套装✿◈。其发布给社区的关键资源包括模型权重✿◈、源代码✿◈,技术报告也即将推出✿◈。
月之暗面介绍了Kimi-Dev-72B的设计理念和技术细节✿◈,包括BugFixer和 TestWriter的组合✿◈、中期训练✿◈、强化学习和测试时自我博弈✿◈。
成功修复错误的补丁(patch)应能通过准确反映该错误的单元测试✿◈。同时✿◈,复现错误的成功测试应引发断言错误✿◈,并在将正确的错误修复补丁应用到代码库后通过✿◈。这致使BugFixer和TestWriter互补✿◈,一个足够强大的编程大语言模型应该在这两个方面都表现出色匿踪库卡隆套装✿◈。
BugFixer和TestWriter的工作流程类似✿◈:它们都会先找到正确的文件进行编辑✿◈,然后编辑正确的代码更新✿◈,无论是修复脆弱的实现还是插入unittest函数✿◈。因此✿◈,对于这两种角色✿◈,Kimi-Dev-72B都采用了相同的极简框架✿◈,该框架仅包含两个阶段✿◈:文件本地化和代码编辑匿踪库卡隆套装✿◈。BugFixer和TestWriter的双重设计奠定了Kimi-Dev-72B的基础匿踪库卡隆套装✿◈。
为了增强Kimi-Dev-72B作为BugFixer和TestWriter的先验知识✿◈,月之暗面使用约1500亿个高质量的真实数据进行中期训练✿◈。
以Qwen 2.5-72B基础模型为起点✿◈,月之暗面收集了数百万个GitHub问题和 PR提交作为其中期训练数据集✿◈。数据配方经过精心构建✿◈,使Kimi-Dev-72B 能够学习人类开发者如何推理GitHub问题✿◈、编写代码修复和单元测试✿◈。
中期训练充分增强了基础模型对实际Bug修复和单元测试的了解✿◈,使该模型成为后续强化学习训练的更佳起点✿◈。
通过适当的中期训练和SFT✿◈,Kimi-Dev-72B在文件本地化方面表现出色✿◈。因此✿◈,其强化学习阶段专注于提升其代码编辑能力✿◈。
月之暗面使用了Kimi k1.5中描述的策略优化方法✿◈,该方法在推理任务中表现出色凯发,凯发k8,K8✿◈。对于SWE-bench Verified✿◈,月之暗面重点关注以下三个关键设计✿◈:
仅基于结果的奖励匿踪库卡隆套装✿◈。仅使用Docker的最终执行结果(0或1)作为奖励✿◈,训练期间不采用任何基于格式或过程的奖励✿◈。高效的提示集✿◈。过滤掉模型在多样本评估下成功率为零的提示✿◈,从而更有效地利用大批量✿◈。采用课程学习(curriculum learning)法✿◈,引入新的提示凯发,凯发k8,K8✿◈,逐步提高任务难度✿◈。正例强化凯发,凯发k8,K8✿◈。在训练的最后阶段✿◈,将之前迭代中最近成功的样本纳入当前批次✿◈。这有助于模型增强成功模式并提升性能✿◈。
Kimi-Dev-72B通过使用高度并行匿踪库卡隆套装✿◈、强大且高效的内部agent基础设施✿◈,从可扩展数量的问题解决任务的训练中受益✿◈。
经过强化学习后凯发,凯发k8,K8✿◈,Kimi-Dev-72B能同时掌握BugFixer和TestWriter的角色✿◈。在测试过程中✿◈,它会采用自我博弈机制✿◈,协调自身Bug修复和测试编写的能力✿◈。
每个问题最多可生成40个补丁候选和40个测试候选(按照标准无agent设置)✿◈,可观察到测试时自博弈的扩展效应凯发,凯发k8,K8✿◈。
月之暗面正在积极研究和开发扩展Kimi-Dev-72B功能的方法✿◈,并探索更复杂的软件工程任务✿◈。
其未来的迭代将侧重于与流行的集成开发环境(IDE)✿◈、版本控制系统和CI/CD流水线进行更深入的集成✿◈,使Kimi-Dev-72B更加无缝地融入开发者的工作流程✿◈。
该公司承诺将持续改进Kimi-Dev-72B✿◈,进行严谨的红队测试✿◈,并向社区发布更强大的模型✿◈。