漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-11-29 talkingdev

Prime Intellect发布INTELLECT-3:1060亿参数开源MOE模型在数学代码科学领域超越更大模型

人工智能公司Prime Intellect正式推出INTELLECT-3模型,这是一个基于强化学习训练、具备1060亿参数的混合专家开源模型。该模型采用创新的MoE架构,通过动态激活专家网络显著提升计算效率,在数学推理、代码生成、科...

Read More
2025-11-11 talkingdev

Moonshot AI开源Kimi K2思维模型:320亿激活参数,性能达非思维模型前沿水平

近日,前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型,该模型采用混合专家架构,具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面,Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

Read More
2025-11-07 talkingdev

深度解析月之暗面Kimi K2推理模型:国产MoE架构突破性能边界

中国人工智能实验室月之暗面(Moonshot AI)最新推出的Kimi K2 Thinking模型,以其创新的混合专家(MoE)推理架构引发行业关注。该模型在Humanity's Last Exam综合能力测评和BrowseComp浏览理解基准测试中,部分指标...

Read More
2025-10-30 talkingdev

Cursor发布Composer:基于强化学习的快速前沿代码生成模型

Cursor公司最新推出的Composer模型标志着AI辅助软件开发领域的重大突破。这款基于混合专家架构的智能体模型,通过强化学习训练实现了前沿代码生成能力,其执行速度达到同类模型的四倍。Composer的核心创新在于其多工...

Read More
2025-07-23 talkingdev

[开源]Qwen3-Coder:全球领先的智能编码代理模型问世

通义千问团队正式发布Qwen3-Coder,这是迄今为止最先进的智能编码代理模型。该模型采用4800亿参数的混合专家架构(Mixture-of-Experts),其中激活参数达350亿,并支持超长上下文处理。在智能编码、浏览器操作和工具...

Read More
2025-06-18 talkingdev

MiniMax开源推理模型M1:混合专家架构+闪电注意力

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1,该模型采用创新的混合专家架构(MoE)并引入'闪电注意力'技术,实现百万token级别的超长上下文处理能力(相当于DeepSeek R1的8倍)。特别值得注意...

Read More
2025-05-05 talkingdev

阿里巴巴发布Qwen 3系列AI模型,号称可媲美谷歌与OpenAI顶级模型

阿里巴巴近日正式推出Qwen 3系列人工智能模型,该系列模型采用混合专家架构(Mixture of Experts),具备先进的推理能力,并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言,训练数据规模高...

Read More
2024-02-07 talkingdev

Roblox发布实时AI聊天翻译器,打破语言壁垒

Roblox开发了一种AI模型,能够实时翻译16种语言的文本聊天,以打破语言壁垒,增强用户参与度。该模型利用基于转换器的大型语言模型,在混合专家架构中实现了高效的资源利用,同时保持了其隐私和安全流程。

Read More