基准测试的相关内容 - 漫话开发者

2026-06-24 talkingdev

IBM发布开源CUGA框架：轻量级Agent应用开发利器，两句代码构建智能体

IBM Research在Hugging Face博客上发布了其最新的开源项目CUGA（Conversational Universal Generative Agent），这是一个轻量级的智能体（Agent）应用开发框架。CUGA通过统一管理规划、执行和状态维护等复杂环节，极...

2026-06-23 talkingdev

最新发布的开源大语言模型GLM-5.2在多项基准测试中展现出令人瞩目的性能，一举超越当前所有同级别开源模型，成为开源社区的新标杆。该模型在逻辑推理、代码生成以及多语言理解等关键领域表现尤为突出，其评测分数甚...

2026-06-17 talkingdev

Z.ai 最新发布了其AI模型 GLM-5.2，这是一次面向编码领域的重大升级。该模型拥有高达 100 万 token 的超大上下文窗口，能够处理整个代码库的长程编码任务，并引入了新的推理控制机制。GLM-5.2 目前已向 Coding Plan...

2026-06-13 talkingdev

国内AI初创公司Moonshot AI于本周正式发布了其K2编程模型家族的最新开源版本——Kimi K2.7-Code。据该团队宣称，与上一代K2.6相比，新模型在保持高性能的同时，实现了推理过程中令牌（token）使用量降低30%的显著突破...

2026-06-12 talkingdev

小米近日在AI编程助手领域取得了突破性进展，正式开源了其终端原生AI编码工具——MiMo Code V0.1.0。这款工具在关键AI编码基准测试中表现抢眼，特别是在涉及超长周期、多步骤的复杂任务（超过200步）上，性能超越了知...

2026-06-09 talkingdev

在当前AI编程模型的评估中，大多数基准测试都聚焦于代码能否正确运行，即是否能够通过编译、执行并输出预期结果。然而，在真正的软件开发生产环境中，“正确”仅仅是最低标准。最新发布的FrontierCode基准测试，首次将...

2026-06-05 talkingdev

随着本地大语言模型（LLM）的普及，Ollama作为一款简洁的本地模型运行工具，受到开发者和研究者的广泛关注。然而，面对众多不同参数规模、训练策略的Ollama模型，如何快速、客观地选出最适合特定任务的模型，成为实...

2026-06-02 talkingdev

Perplexity AI 在其最新研究论文中提出了一种名为“搜索即代码”（Search as Code，简称 SaC）的全新搜索架构范式。该方案通过提供一个软件开发工具包（SDK），赋予大语言模型对搜索流程的直接编程控制权。与传统将搜...