中国人工智能实验室月之暗面(Moonshot AI)近日开源其革命性推理模型Kimi K2,在关键基准测试中展现出与国际顶尖模型的竞争实力。该模型在衡量综合认知能力的‘人类终极考试’(Humanity's Last Exam)中取得44.9%的...
Read More人工智能公司Anthropic正式推出Claude Sonnet 4.5模型,该模型在SWE-bench Verified基准测试中以77.2%的得分刷新世界纪录,成为当前全球最卓越的代码生成模型。此次升级在计算机操作、复杂推理和数学计算三大核心领...
Read More最新技术分析揭示,当前流行的AI编程基准测试(如SWE-bench)实际测量范围远窄于其名称所暗示的能力。研究表明,Claude在SWE-bench获得80%评分并不等同于能一次性解决80%的实际编程任务。本文深度剖析SWE-bench Veri...
Read More近日,Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩,成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术,该技术通过在Docker环境中直接修补...
Read More近日,技术社区对SWE-bench数据集的使用提出了严重关切。该数据集被广泛用于评估软件工程领域的模型性能,但近期发现其存在多个关键问题,可能影响研究结果的准确性和可靠性。首先,数据集中部分样本的标注存在偏差...
Read More近日,一项新的技术研究实现了在无代理的情况下,仅使用语言模型,就能在SWE-bench上实现24%以上的解决率。这一成果对于深化我们对SWE-bench的理解,提高其解决效率具有重要的参考价值。SWE-bench是一款广泛应用于语...
Read MoreCognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。
Read More