字节跳动开发 MegaScale 系统,可用于训练大型语言模型
talkingdev • 2024-02-29
946571 views
据悉,字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率,相当惊人。此外,字节跳动计划开源一些代码库的部分内容。MegaScale 系统的出现为训练大型语言模型提供了更高效、更经济的方法。
核心要点
- 字节跳动开发了一种名为 MegaScale 的系统,可用于训练大规模并行的大型语言模型。
- MegaScale 系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型,达到了 55.2% 的模型 FLOPs 利用率。
- 字节跳动计划开源 MegaScale 系统的部分代码库。