漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-04 talkingdev

强化学习优化代码合并:Osmosis-Apply-1.7B以低成本超越大型基础模型

Osmosis-Apply-1.7B是基于Qwen3-1.7B模型通过强化学习微调而成的专用模型,在代码合并任务中表现出色,其奖励分数高达0.9893,甚至超越了OpenAI o3等更大规模的基础模型,同时显著降低了成本。该模型在CommitPackFT...

Read More
2025-06-19 talkingdev

Moonshot AI开源模型Kimi-Dev-72B在SWE-bench测试中创下60.4%新纪录

近日,Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩,成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术,该技术通过在Docker环境中直接修补...

Read More