大规模训练的相关内容 - 漫话开发者

2024-03-19 talkingdev

16种不同的分词器预训练同一模型揭秘

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2023-10-19 talkingdev

大规模训练中的不稳定性对于大多数研究人员来说很难复制。一项新论文展示了如何在小模型中重现这些不稳定性，并验证了许多常见的修复方法在这些小模型上同样有效。该论文的作者认为，这样做有助于提高大规模训练的可...

2023-10-06 talkingdev

在多GPU和多节点系统上训练语言模型存在多种挑战，且在这些场景下积累经验也非常困难。本篇博客文章详尽深入地研究了ZeRO，FSDP，以及在大规模训练或微调模型时可能遇到的问题。我们需要理解，进行分布式训练并不仅...

2023-07-21 talkingdev

近日，苹果公司发布了一款新的深度学习库AX，该库基于Jax构建。值得一提的是，AX支持基于编译器的并行性，可实现大规模训练，这是许多其他流行框架所不具备的功能。在过去的几年中，深度学习领域的研究和应用取得了...