基准测试的相关内容 - 漫话开发者

2026-06-01 talkingdev

MiniMax M3开源模型：融合编码与智能体前沿，百万Token超长上下文

MiniMax 最新发布的开源权重模型 M3 在编码和智能体（Agentic）任务上达到前沿水平。该模型不仅支持图像和视频输入，还可以直接操作桌面计算机。技术上，M3 引入了一种新的注意力架构，支持上下文缩放，并能够处理多...

2026-05-29 talkingdev

在人工智能领域，开源模型的性能与顶尖闭源模型之间的差距一直是业界关注的焦点。最近一篇来自LessWrong平台的深入分析指出，尽管开源模型在整体能力上仍不及GPT-4、Claude等最先进的闭源模型，但实际差距并没有想象...

2026-05-22 talkingdev

一位资深技术博主在运行其个人博客长达十年后，终于将系统从长期服务版本Ubuntu 16.04迁移到了FreeBSD。这次迁移并非简单的版本升级，而是一次深度的架构切换。博主详细记录了在Hetzner VPS上部署FreeBSD的完整流程...

2026-05-20 talkingdev

在Google I/O大会上，Google正式发布了其最新一代大语言模型系列——Gemini 3.5。这一版本是Gemini系列的重大升级，首款推出的模型为超快速的3.5 Flash版本，专为在Google搜索等应用中直接处理复杂任务而优化。在多项...

2026-05-20 talkingdev

艾伦人工智能研究所（Ai2）最新发布的OlmoEarth v1.1模型家族，在遥感智能分析领域实现了显著的成本突破。该系列模型通过创新的序列长度优化技术，将处理遥感数据的计算成本最高降低至原来的三分之一（即3倍效率提升...

2026-05-18 talkingdev

在大型代码库中，AI编程助手（如Claude Code）进行代码搜索时，常常面临效率瓶颈：当直接查找失败，它们会退回到grep等传统工具或读取整个文件，这往往导致大量的Token消耗，且检索质量不佳。针对这一痛点，开发者St...

2026-05-07 talkingdev

近日，一项名为ProgramBench的新型基准测试引发了人工智能和软件工程领域的广泛关注。该测试旨在评估AI智能体（Agent）在没有源代码的情况下，仅通过阅读文档和进行实验，从零开始逆向构建软件可执行文件的能力。Pro...

2026-05-06 talkingdev

上下文窗口的大小一直是大型语言模型在处理长文本任务时的关键瓶颈。近日，初创公司Subquadratic宣布推出一款全新的AI模型，其上下文窗口达到了惊人的1200万token（约合1200万个单词或代码标记），远超过当前主流模...