什么是MOE混合专家模型?
talkingdev • 2023-08-07
1539105 views
目前使用的语言模型有两大类:密集型和稀疏型。密集型模型就像传统的2017年的变压器模型,每个令牌都使用每个模型参数。稀疏型模型在此后不久就被引入,它使用一种路由机制(通常是学习到的),这意味着每个令牌只使用模型参数的一个子集。这种方法更为高效,实际上可以生成更强大的模型。
talkingdev • 2023-08-07
1539105 views
目前使用的语言模型有两大类:密集型和稀疏型。密集型模型就像传统的2017年的变压器模型,每个令牌都使用每个模型参数。稀疏型模型在此后不久就被引入,它使用一种路由机制(通常是学习到的),这意味着每个令牌只使用模型参数的一个子集。这种方法更为高效,实际上可以生成更强大的模型。