性能基准的相关内容 - 漫话开发者

2026-02-06 talkingdev

OpenAI发布GPT-5.3-Codex：专为长周期技术工作打造的代码原生智能体

OpenAI正式发布了其新一代代码生成模型GPT-5.3-Codex，标志着人工智能在专业编程和复杂技术任务应用领域迈出了重要一步。该模型被定位为一个“代码原生智能体”，其核心突破在于将前沿的代码生成性能与强大的通用推理...

2026-01-26 talkingdev

近日，一个名为TTT-Discover的开源项目在GitHub上发布，其核心创新在于将强化学习（Reinforcement Learning）技术应用于大型语言模型（LLMs）的推理（Inference）阶段，而非传统的训练阶段。这一“测试时训练”（Test-...

2025-12-19 talkingdev

OpenAI近日正式推出了其最新的智能编码模型GPT-5.2-Codex，该模型被定位为面向专业软件工程和防御性网络安全领域的最先进的“智能体”编码模型。此次发布标志着AI在代码生成与理解能力上的又一次重大飞跃。GPT-5.2-Cod...

2025-12-12 talkingdev

人工智能研究机构OpenAI正式发布了其最新的前沿模型GPT-5.2，该模型被定位为专为专业知识工作和长期运行的智能体（agents）而设计的最先进系统。根据官方介绍，GPT-5.2在多个关键领域树立了新的性能标杆，包括代码生...

2025-12-10 talkingdev

人工智能领域的重要参与者Mistral AI近日正式发布了其新一代开源代码智能体模型Devstral 2与Devstral Small 2，并同步推出了端到端代码自动化命令行工具Mistral Vibe CLI。这一组合标志着开源代码智能体技术迈入了一...

2025-12-04 talkingdev

英伟达于近日公布了其最新一代GB200 Blackwell AI服务器的性能基准测试数据，结果显示，相较于前代H100/H200平台，该服务器在运行特定类型的混合专家模型时，性能提升高达10倍。此次测试重点针对中国AI公司月之暗面...

2025-11-14 talkingdev

近日，数据工程领域开展了一项重要的性能基准测试，针对当前主流的四大数据处理框架——Polars、DuckDB、Daft和Spark，在亚马逊S3存储的650GB Delta Lake数据集上进行了全面对比。测试聚焦于现代数据架构中的关键性能...

2025-11-07 talkingdev

中国人工智能实验室月之暗面（Moonshot AI）最新推出的Kimi K2 Thinking模型，以其创新的混合专家（MoE）推理架构引发行业关注。该模型在Humanity's Last Exam综合能力测评和BrowseComp浏览理解基准测试中，部分指标...