基准测试的相关内容 - 漫话开发者

2026-03-25 talkingdev

性能翻倍！Ray Data LLM实现生产级大模型批量推理吞吐量超越vLLM同步引擎

随着大语言模型（LLM）应用场景的不断拓展，越来越多的现代工作负载，如大规模内容生成、数据清洗和批量分析等，其核心诉求已从追求单个请求的低延迟，转向了优先保障整体吞吐量。然而，当前许多LLM系统和部署方案仍...

2026-03-16 talkingdev

一项针对前端开发中内存泄漏问题的系统性实证研究近日发布。该研究采用基于抽象语法树（AST）的静态分析方法，对500个公开的React、Vue和Angular仓库进行了扫描，共识别出55,864个缺失清理逻辑的代码模式。研究发现...

2026-02-25 talkingdev

近日，一篇关于AI模型“智能产出比”的分析引发行业关注。该分析指出，评估AI模型性能不应仅关注其最终能解决多难的任务，更应关注模型为达到该性能水平所需的计算资源，即“智能产出比”。文章重点介绍了Anthropic公司...

2026-02-19 talkingdev

OpenAI与知名加密投资及研究机构Paradigm近日联合推出了名为“EVMbench”的全新基准测试。该基准旨在系统性地评估人工智能（AI）代理在检测、修补以及利用高严重性智能合约漏洞方面的综合能力。智能合约作为区块链生态...

2026-02-13 talkingdev

Meta与Hugging Face联合发布了开源框架OpenEnv，该框架旨在通过标准化的gym风格API和MCP工具接口，统一AI智能体与真实、有状态环境（如操作系统、应用程序）的交互方式。这一举措标志着AI智能体评估从封闭的模拟环境...

2026-02-12 talkingdev

智谱AI正式发布了其新一代开源大模型GLM-5，该模型以MIT许可证开源，参数量达到惊人的7540亿，是前代GLM-4.7（3680亿参数）规模的两倍以上。在技术性能上，GLM-5在广泛的学术基准测试中相比GLM-4.7实现了显著提升，...

2026-02-11 talkingdev

Meta（原Facebook）旗下研究团队近日在GitHub开源了AIRS-Bench基准测试框架，旨在系统性地量化大型语言模型（LLM）代理在真实世界人工智能研究任务中的端到端能力。该基准包含20个精心设计的机器学习研究任务，每个...

2026-02-09 talkingdev

近期，AI研究领域围绕开源与闭源模型的发展路径展开了激烈讨论。专家Nathan Lambert提出一个核心论断：开源模型在性能上可能永远无法完全追上闭源模型。这并非意味着开源模式失败，而是揭示了其独特的战略价值。闭源...