MoE的相关内容 - 漫话开发者

2025-11-06 talkingdev

AWS EFA实现万亿参数模型突破：Perplexity发布分布式推理代码

人工智能研究机构Perplexity近日发布突破性代码，首次实现万亿参数混合专家模型在多个AWS服务器间的高效运行。这项技术突破使得算力基础设施相对薄弱的数据中心也能承载尖端AI模型的推理任务。当前大型语言模型面临...

2025-10-24 talkingdev

加州大学伯克利分校研究团队开发的进化编码智能体OpenEvolve，成功将大型语言模型转化为自主代码优化器，在混合专家模型负载平衡任务中取得重大突破。该系统通过模拟自然选择机制，使LLM能够自主探索算法空间，最终...

2025-10-21 talkingdev

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术，探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

2025-07-30 talkingdev

Wan2.2项目在GitHub上发布了首个开源的专家混合（Mixture-of-Experts, MoE）视频生成模型，标志着视频生成技术领域的重要突破。该模型通过结合专家引导的扩散步骤和精细的电影级控制，显著提升了生成视频的质量和可...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-05-23 talkingdev

人工智能研究公司Anthropic正式推出Claude Opus 4和Claude Sonnet 4两大模型，在编码能力、高级推理及AI智能体领域设立全新行业标准。此次升级的核心突破在于模型针对复杂长时任务的设计优化，可持续运行数小时完成...

2025-05-08 talkingdev

法国AI初创公司Mistral近日正式推出企业级对话助手Le Chat Enterprise，该产品最大特点是支持完全本地化部署，为企业数据安全提供保障。作为开源大模型领域的领军者，Mistral此次发布的解决方案允许企业将AI系统部署...

2025-04-28 talkingdev

DeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2，这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露，R2模型将采用创新的混合架构设计，整合了稀疏专家模型(MoE)与密...