论文:SoftMoE,一种改进的稀疏混合专家模型,低成本提高模型容量
talkingdev • 2023-08-04
1548357 views
SoftMoE 是一种新的模型架构,它改进了稀疏的混合专家(MoE)模型。通过使用软分配方法,每个专家处理输入令牌的子集,SoftMoE以更低的成本提供了更大的模型容量。在视觉识别任务中,SoftMoE的表现超过了标准的变压器和其它MoE模型。与ViT-Huge/14模型相比,它的表现同样出色,但推理成本要低得多。当进行扩展时,SoftMoE大幅增加了模型参数,同时保持推理时间成本最小,从而提高了性能。更重要的是,它是完全可微的!
核心要点
- SoftMoE 是一种新的模型架构,改进了稀疏的混合专家(MoE)模型
- SoftMoE的表现超过了标准的变压器和其它MoE模型
- SoftMoE大幅增加了模型参数,同时保持推理时间成本最小,从而提高了性能