混合专家架构的相关内容 - 漫话开发者

2026-07-22 talkingdev

Poolside 发布 Laguna S 2.1：1180 亿参数 MoE 模型，专攻智能体编程，上下文窗口突破 100 万 token

专攻 AI 编码的初创公司 Poolside 在 Hugging Face 上正式发布了其最新大型语言模型 Laguna S 2.1。该模型采用混合专家架构，总参数量高达 1180 亿，但每个 token 仅激活其中 80 亿个参数，在保持强大能力的同时实现...

2026-07-16 talkingdev

人工智能公司Thinking Machines正式发布了其首个开放权重模型Inkling。这是一个参数规模高达9750亿的混合专家（Mixture-of-Experts）Transformer模型，原生支持文本、图像和音频的多模态输入与理解。Inkling最引人注...

2026-04-03 talkingdev

在ChatGPT于2022年底掀起生成式AI浪潮后，开源大模型的接力棒在多家公司间传递。近日，美国AI初创公司Arcee AI正式发布了其重量级开源模型——Trinity-Large-Thinking。该模型采用混合专家架构，参数量高达3990亿，是...

2025-11-29 talkingdev

人工智能公司Prime Intellect正式推出INTELLECT-3模型，这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构，通过动态激活专家网络显著提升计算效率，在数学推理、代码生成、科...

2025-11-11 talkingdev

近日，前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型，该模型采用混合专家架构，具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面，Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

2025-11-07 talkingdev

中国人工智能实验室月之暗面（Moonshot AI）最新推出的Kimi K2 Thinking模型，以其创新的混合专家（MoE）推理架构引发行业关注。该模型在Humanity's Last Exam综合能力测评和BrowseComp浏览理解基准测试中，部分指标...

2025-10-30 talkingdev

Cursor公司最新推出的Composer模型标志着AI辅助软件开发领域的重大突破。这款基于混合专家架构的智能体模型，通过强化学习训练实现了前沿代码生成能力，其执行速度达到同类模型的四倍。Composer的核心创新在于其多工...

2025-07-23 talkingdev

通义千问团队正式发布Qwen3-Coder，这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构（Mixture-of-Experts），其中激活参数达350亿，并支持超长上下文处理。在智能编码、浏览器操作和工具...