模型训练的相关内容 - 漫话开发者

2024-05-29 talkingdev

深度学习框架Tinygrad 0.9.0正式发布

深度学习框架Tinygrad 0.9.0正式发布。Tinygrad是一个轻量级的深度学习框架，支持Python和JavaScript。Tinygrad 0.9.0增加了对自定义函数的支持，以及其他一些性能和稳定性的改进。它的设计使其非常适合在边缘设备上...

2024-05-16 talkingdev

近日，EfficientTrain++推出了一种新颖的课程学习策略，显著减少了主要视觉模型如ResNet和Swin在ImageNet数据库上的训练时间。据悉，这种新的学习策略最多可以将模型训练时间缩短三倍。EfficientTrain++的这一突破不...

2024-05-13 talkingdev

语言模型依赖于单独训练的标记生成器。这些标记生成器可能会产生在语言模型训练过程中从未见过的标记。即使在最强大的现代语言模型中，也存在许多此类标记。本文探讨了这种现象，并提出了识别和处理这些标记的方法。...

2024-05-02 talkingdev

Reka是一家专业训练大型基础模型的公司，尽管资金规模只是顶级玩家的一小部分，但其发展速度却迅速赶超了一些业界最佳参与者。近日，Reka发布了其内部评估套件Vibe-Eval的一个子集，该套件被用于确定其模型的强度。...

2024-05-01 talkingdev

Nvidia最近发布了一个新的工具包，可以对CUDA状态进行检查点设置，以便于传输和重启。这一工具包在GitHub上公开，对于大型AI模型的分布式训练非常有用。CUDA状态的检查点设置可以在训练过程中保存模型的状态，以便在...

2024-04-29 talkingdev

本文展示了链式思考（CoT）可以通过'...'代币进行混淆。这需要训练模型，但表明可能无法解读CoT步骤，模型可以隐藏思考过程。链式思考是一种新兴的人工智能技术，通过模拟人类思考过程，提高机器学习模型的决策质量...

2024-04-28 talkingdev

微软近日发布了一组用于训练BitNet风格模型的GPU加速内核。这些模型在准确度上没有明显下降的情况下，大大降低了内存消耗。BitNet风格模型是一种新型的深度学习模型，它的特点是使用1.58位的数据表示方法，比传统的3...

2024-04-10 talkingdev

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...