漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-13 talkingdev

Meta发布24k H100s训练Llama 3细节

Meta在这篇博客文章中概述了用于训练Llama 3的基础设施。它介绍了存储、网络、Pytorch、NCCL等改进。这将为Meta今年其余时间上线的H100s打下基础。

Read More
2024-03-08 talkingdev

深入探讨:大规模模型训练的并行化技术

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术,以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术,并详细讨论了它们的优缺点。...

Read More
2024-02-21 talkingdev

如何在AdamW中联动调整学习率和权重

AdamW通常用于解耦学习率和权重衰减。然而,Pytorch中的常见实现并没有明确地做到这一点。本文讨论了如何调整这些参数。 AdamW是一种优化算法,它在Adam的基础上加入了权重衰减。AdamW的优点之一是可以解决权重衰减...

Read More
2024-02-14 talkingdev

Axolotl发布支持MPS的更新

Axolotl是许多团队用来微调语言模型的工具。这个PR通过Pytorch和MPS添加了对Mac M设备的支持。

Read More
2024-02-01 talkingdev

Pytorch实验性浮点8训练

使用较低精度的模型训练速度更快、更便宜,但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上,提供易于阅读和可修改的代码,实现浮点8训练。

Read More
2024-01-29 talkingdev

从零开始实现稀疏混MOE合专家语言模型

本文将提供一个使用Pytorch从零开始编写稀疏混合专家模型的教程,图文并茂地讲解了每一步骤并提供了代码。其中,对top-k路由的解释特别有见地。

Read More
2024-01-29 talkingdev

RoMa-PyTorch中的旋转操作库开源

RoMa是一个用于PyTorch的库,用于处理棘手的旋转问题。它非常高效,可以帮助处理任何使用3D数据的项目。

Read More
2024-01-26 talkingdev

TensorDict:让你在PyTorch中更好地使用字典和张量

TensorDict是一个非常实用的小工具,它可以让你在PyTorch中使用字典和张量。使用TensorDict可以提高代码的可读性和可用性,同时保持良好的性能。 TensorDict提供了一种简单的方法来将张量转换为字典,并且可以像字...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page