基准测试的相关内容 - 漫话开发者

2025-12-23 talkingdev

开源模型新突破：MiniMax M2.1正式登陆Kilo平台，多项基准测试超越DeepSeek与Kimi

人工智能开源领域迎来重要进展。知名开源力量MiniMax推出的最新模型M2.1现已正式在Kilo平台上线。根据官方信息，M2.1在多项关键基准测试中表现优异，其性能已超越国内同行DeepSeek和Kimi等知名模型。更值得关注的是...

2025-12-23 talkingdev

近日，智谱AI正式发布了其通用语言模型系列的最新力作——GLM-4.7。作为一款高端基础模型，GLM-4.7的核心定位在于处理复杂的推理任务、专业级代码生成以及多模态工作负载。相较于前代版本，此次更新在多个维度实现了显...

2025-12-22 talkingdev

在人工智能领域，基准测试分数已成为衡量模型性能和市场宣传的核心指标，但其解读却普遍存在误区。当前行业叙事往往暗示模型智能水平呈现普遍性提升，然而单一的基准分数可能具有误导性，无法全面反映模型在真实、复...

2025-12-18 talkingdev

埃隆·马斯克旗下的人工智能公司xAI近日宣布，将向所有开发者开放其驱动特斯拉汽车内Grok语音助手的语音技术栈。这一举措标志着xAI正加速其尖端AI技术的商业化与生态构建。新开放的Grok Voice Agent API在性能与成本...

2025-12-16 talkingdev

英伟达近日正式发布了Nemotron 3系列开源模型，该家族包含Nano（300亿参数，30亿活跃参数）、Super（1000亿参数）和Ultra（5000亿参数）三个版本，其中Super和Ultra型号计划于2026年初推出。尤为引人注目的是，当前...

2025-12-12 talkingdev

谷歌近日正式向开发者开放了其强大的Gemini深度研究（Gemini Deep Research）功能，通过全新的交互API（Interactions API）提供服务。这一举措标志着AI在复杂信息处理与综合能力方面迈出了重要一步。Gemini深度研究...

2025-12-05 talkingdev

OpenRouter平台近期发布了一份名为《AI现状》的实证研究报告，该研究标志着大语言模型（LLM）在实际应用中的一个关键转折点。报告指出，过去一年，该领域已从传统的单次模式生成，迅速转向多步骤的深思熟虑式推理。...

2025-12-05 talkingdev

近日，AI模型聚合平台OpenRouter发布了一份名为《State of AI》的深度实证研究报告。该研究基于对超过100万亿（100T）真实世界大语言模型交互令牌的分析，覆盖了不同任务类型、地理区域和时间跨度，为当前AI技术的实...