漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-21 talkingdev

如何在AdamW中联动调整学习率和权重

AdamW通常用于解耦学习率和权重衰减。然而,Pytorch中的常见实现并没有明确地做到这一点。本文讨论了如何调整这些参数。 AdamW是一种优化算法,它在Adam的基础上加入了权重衰减。AdamW的优点之一是可以解决权重衰减...

Read More
2024-02-14 talkingdev

Axolotl发布支持MPS的更新

Axolotl是许多团队用来微调语言模型的工具。这个PR通过Pytorch和MPS添加了对Mac M设备的支持。

Read More
2024-02-01 talkingdev

Pytorch实验性浮点8训练

使用较低精度的模型训练速度更快、更便宜,但不稳定。最近有很多关于量化训练的研究。这个代码库建立在这些基础上,提供易于阅读和可修改的代码,实现浮点8训练。

Read More
2024-01-29 talkingdev

从零开始实现稀疏混MOE合专家语言模型

本文将提供一个使用Pytorch从零开始编写稀疏混合专家模型的教程,图文并茂地讲解了每一步骤并提供了代码。其中,对top-k路由的解释特别有见地。

Read More
2024-01-29 talkingdev

RoMa-PyTorch中的旋转操作库开源

RoMa是一个用于PyTorch的库,用于处理棘手的旋转问题。它非常高效,可以帮助处理任何使用3D数据的项目。

Read More
2024-01-26 talkingdev

TensorDict:让你在PyTorch中更好地使用字典和张量

TensorDict是一个非常实用的小工具,它可以让你在PyTorch中使用字典和张量。使用TensorDict可以提高代码的可读性和可用性,同时保持良好的性能。 TensorDict提供了一种简单的方法来将张量转换为字典,并且可以像字...

Read More
2024-01-23 talkingdev

HuggingFace发布针对3D并行的代码库Nanotron

近日,HuggingFace发布了一个名为Nanotron的小型而强大的库,用于训练具有3D并行性的模型。这意味着它将数据、模型和模型中的层/张量分割开来。前两种并行性在PyTorch等库中得到了很好的支持。然而,将模型张量分割...

Read More
2024-01-08 talkingdev

PyTorch到Jax的转型

本文介绍如何从PyTorch转向Jax。文章提出了9个简明扼要的概念,这些概念使Jax强大而不同,每个概念都附有一个很好的代码示例。

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page