Moonshot AI开源模型Kimi-Dev-72B在SWE-bench测试中创下60.4%新纪录
talkingdev • 2025-06-19
6817 views
近日,Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩,成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术,该技术通过在Docker环境中直接修补真实代码库,并仅在完整测试套件通过时才给予奖励,从而显著提升了模型的代码修复能力。这一进展不仅展示了AI在软件开发自动化领域的巨大潜力,也为开源社区提供了强大的工具支持。技术细节显示,该模型采用了一种创新的训练范式,将强化学习与代码库的实际应用场景紧密结合,确保了生成解决方案的可靠性和实用性。这一成果预计将对AI辅助编程、自动化代码审查等领域产生深远影响,标志着AI在软件工程应用方面迈出了重要一步。
核心要点
- Kimi-Dev-72B在SWE-bench测试中以60.4%的成绩创下开源模型新纪录
- 采用创新的大规模强化学习技术,仅在完整测试通过时才给予奖励
- 通过在Docker环境中修补真实代码库,显著提升代码修复能力