Attorch项目旨在用Python和Triton重新编写PyTorch的nn模块部分代码,创建一个易于修改且性能卓越的神经网络实验库。这一尝试标志着以往成本过高的编写工作现在变得可行。Attorch的设计允许研究人员和开发者轻松进行...
Read MoreAnyscale与NVIDIA最近宣布了一项新的合作伙伴关系,旨在帮助客户将生成式AI模型扩展到生产环境中。通过这次合作,客户可以将Ray与Anyscale的托管运行环境相结合,以提高资源管理、可观测性和自动扩缩容的能力。这项...
Read MoreTrigon 是一个允许开发者以类似 Python 的方式编写 CUDA 内核的库,近期正逐渐获得关注。该库的 GitHub 仓库中包含了一系列难度逐步提升的谜题,旨在鼓励开发者学习和掌握这一工具。这些谜题不仅有助于新手快速上手...
Read MoreSasha Rush发布了一份注释教程,介绍了如何使用自定义Triton内核加速Mamba。由于Triton编译器中的一个错误,它目前无法扩展,但它是技术的极端演示,并适合那些想要深入了解状态空间变换器替代品的人。Mamba是一种用...
Read More近期,Triton手写常见模型梯度加速 AI 训练的项目备受关注。该项目手写了一些常见模型的梯度,以加速训练过程。尽管该项目的基准测试结果并不是最具说服力的,但这是一项非常值得尝试的努力。根据测试结果,该项目能...
Read More