技术新闻:Transformer数学问题
talkingdev • 2023-04-20
1853897 views
本文介绍了Transformer模型训练中需要用到的数学知识,其中包括以下三个核心点: - 计算需要多少个GPU进行训练; - 计算模型的宽度应该是多少; - 不管模型大小,都需要至少训练200B个标记。 除此之外,还有其他有趣的问题,读者可以在阅读完整篇文章后了解更多细节。
talkingdev • 2023-04-20
1853897 views
本文介绍了Transformer模型训练中需要用到的数学知识,其中包括以下三个核心点: - 计算需要多少个GPU进行训练; - 计算模型的宽度应该是多少; - 不管模型大小,都需要至少训练200B个标记。 除此之外,还有其他有趣的问题,读者可以在阅读完整篇文章后了解更多细节。