模型架构的相关内容 - 漫话开发者

2025-11-11 talkingdev

Moonshot AI开源Kimi K2思维模型：320亿激活参数，性能达非思维模型前沿水平

近日，前沿开源实验室Moonshot AI正式发布其新一代Kimi K2思维模型，该模型采用混合专家架构，具备320亿激活参数与1万亿总参数的庞大规模。在技术性能方面，Kimi K2在前沿知识理解、数学推理及代码生成领域均达到当...

2025-10-31 talkingdev

月之暗面（Moonshot AI）正式发布Kimi Linear技术报告，这项突破性架构通过创新设计实现了对传统全注意力机制的全面超越。该架构在保持同等性能水平下，将KV缓存使用量最高降低75%，在100万上下文长度场景中解码吞吐...

2025-10-21 talkingdev

近日，谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式，采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

2025-10-12 talkingdev

Meta Superintelligence Labs于arXiv发布编号2509.01092的首篇论文，引发学术社区高度关注。该研究并未延续当前大模型参数规模竞赛的常规路径，而是聚焦于注意力机制的基础架构创新。论文提出了一种名为"动态稀疏注...

2025-10-10 talkingdev

OpenAI最新发布的GPT-5模型在政治偏见控制方面取得突破性进展。根据该公司与Axios共享的研究数据，GPT-5即时版（Instant）和思考版（Thinking）相较于前代模型，政治偏见水平降低了30%。这一改进源于模型架构的优化...

2025-10-02 talkingdev

Thinking Machines实验室近日正式发布Tinker API，这一创新平台为开源权重语言模型的精细化调优提供了灵活接口。该技术通过抽象化底层基础设施复杂度，显著降低了开发者部署大型语言模型的技术门槛。特别值得关注的...

2025-09-29 talkingdev

深度求索（DeepSeek）最新推出的DeepSeek-V3.1 Terminus模型标志着AI智能体技术迈入新阶段。该版本在工具调用（Tool Use）能力上实现重大突破，通过优化推理架构和指令遵循机制，显著提升了复杂任务执行的准确性和效...

2025-09-20 talkingdev

埃隆·马斯克旗下人工智能公司xAI正式推出新一代多模态模型Grok 4 Fast，该模型突破性地实现了200万token的上下文窗口容量，成为当前业界最大上下文处理能力的模型之一。其革命性在于采用统一架构同时整合了推理模式...