SWE-bench的相关内容 - 漫话开发者

2026-06-01 talkingdev

MiniMax M3开源模型：融合编码与智能体前沿，百万Token超长上下文

MiniMax 最新发布的开源权重模型 M3 在编码和智能体（Agentic）任务上达到前沿水平。该模型不仅支持图像和视频输入，还可以直接操作桌面计算机。技术上，M3 引入了一种新的注意力架构，支持上下文缩放，并能够处理多...

2026-04-30 talkingdev

Mistral AI最新发布了Mistral Medium 3.5模型，这是一款拥有1280亿参数的密集模型（128B dense model），专为驱动远程Vibe代理而设计，能够在云端执行长时间、异步的编码任务，用户可直接从命令行界面（CLI）或Le Ch...

2026-04-21 talkingdev

中国人工智能公司月之暗面（Moonshot AI）近日正式推出其新一代大模型系列Kimi K2.6，并已在Kimi Chat对话平台及API接口上线。该系列模型的核心突破在于强化了长上下文编程能力与智能体（Agent）执行支持，旨在为开...

2026-02-04 talkingdev

近日，一项名为SWE-Universe的研究提出了一种革命性的可扩展框架，旨在从GitHub的拉取请求中自动构建真实世界的软件工程可验证环境。该研究成功解决了自动化构建中长期存在的三大挑战：构建成功率低、验证机制薄弱以...

2025-11-07 talkingdev

中国人工智能实验室月之暗面（Moonshot AI）近日开源其革命性推理模型Kimi K2，在关键基准测试中展现出与国际顶尖模型的竞争实力。该模型在衡量综合认知能力的‘人类终极考试’（Humanity's Last Exam）中取得44.9%的...

2025-09-30 talkingdev

人工智能公司Anthropic正式推出Claude Sonnet 4.5模型，该模型在SWE-bench Verified基准测试中以77.2%的得分刷新世界纪录，成为当前全球最卓越的代码生成模型。此次升级在计算机操作、复杂推理和数学计算三大核心领...

2025-09-26 talkingdev

最新技术分析揭示，当前流行的AI编程基准测试（如SWE-bench）实际测量范围远窄于其名称所暗示的能力。研究表明，Claude在SWE-bench获得80%评分并不等同于能一次性解决80%的实际编程任务。本文深度剖析SWE-bench Veri...

2025-06-19 talkingdev

近日，Moonshot AI推出的Kimi-Dev-72B开源模型在SWE-bench Verified测试中取得了60.4%的优异成绩，成为当前开源模型中的新标杆。这一突破性成果得益于其采用的大规模强化学习技术，该技术通过在Docker环境中直接修补...