开源|Luminal:基于搜索的开源GPU编译器,可自动为AI模型生成高性能内核
talkingdev • 2025-08-21
6569 views
Luminal是由开发者Joe及其团队构建的一款创新型开源GPU编译器,专门针对AI模型自动生成高度优化的GPU内核。与传统机器学习库不同,Luminal采用搜索式编译方法:它将高级模型代码(如PyTorch格式)转换为底层GPU代码时,并不依赖LLM或启发式规则,而是通过构建数百万个逻辑等价内核的搜索空间,以运行时最小化为目标进行自动筛选。这一方法使其能够自动实现复杂优化(如Flash Attention),完全无需人工干预,显著提升了硬件利用率和执行性能。目前支持Metal后端,正在积极开发CUDA支持以及扩展至如Llama的完整模型编译,未来还将适配更多异构硬件。Luminal旨在彻底简化ML开发流程,推动高性能计算与AI编译技术的融合与发展。
核心要点
- Luminal是一款基于搜索编译策略的开源GPU编译器,可自动为AI模型生成优化内核
- 采用非启发式方法,通过构建和搜索内核空间实现类似Flash Attention的自动优化
- 目前支持Metal,正在扩展CUDA与更多硬件后端,致力于提升ML生态的性能与简化度