MoE模型的相关内容 - 漫话开发者

2025-04-24 talkingdev

DeepSeek-V3/R1多节点部署实现高吞吐与低延迟

最新研究表明，采用混合专家模型（MoE）架构的DeepSeek-V3/R1在多节点GPU部署中展现出显著性能优势。该模型通过创新的资源分配机制，在绝大多数应用场景下同步实现了更高吞吐量和更低延迟的双重突破。技术分析显示，...

2025-04-15 talkingdev

由Tianyi实验室发布的C3PO项目在GitHub开源了一种创新的测试时优化技术，该技术通过基于相似参考样本重新混合专家权重，显著提升了混合专家（Mixture-of-Experts，MoE）大语言模型的准确性。这一突破性方法不仅优化...

2024-03-28 talkingdev

科技巨头Databrix与Mosaic合作，成功训练了一个具有132B参数的混合专家（MoE）模型。该模型在3000个H100 GPU上进行了训练，目前其权重文件已经公开发布。此外，该模型也已在Databricks API上提供服务，供企业和开发...

2024-02-20 talkingdev

谷歌发布了一款新的 MoE 模型，命名为 Gemini 1.5 Pro，它的性能可以与 Gemini 1.0 Ultra 媲美。同时，它支持上下文1百万令牌，并且相比较于 Gemini 1.0 Ultra，使用更少的计算资源，因为它更小巧。这个模型是本地多...

2024-01-11 talkingdev

谷歌的开关Transformer是最早成功的专家混合模型之一。现在，该模型的代码已经在HuggingFace平台上发布，供人们使用。

2023-09-18 talkingdev

IBM近日发布了一系列混合专家模型（Mixture-of-Experts，MoE），并公开了它们的架构和部分代码。MoE模型是一种稀疏模型，意味着在不牺牲准确性的情况下，可以节省计算资源。然而，训练这种模型却颇具挑战性。这次IBM...

2023-08-04 talkingdev

SoftMoE 是一种新的模型架构，它改进了稀疏的混合专家（MoE）模型。通过使用软分配方法，每个专家处理输入令牌的子集，SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中，SoftMoE的表现超过了标准的变压...