CUDA的相关内容 - 漫话开发者

2026-02-23 talkingdev

开源|突破显存限制：开发者实现单张RTX 3090运行Llama 3.1 70B，NVMe直连GPU绕过CPU

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-18 talkingdev

近日，一个名为BarraCUDA的开源项目在开发者社区引发广泛关注。该项目旨在实现一个能够将NVIDIA CUDA代码（.cu文件）直接编译为AMD GPU（特别是基于RDNA 3架构、代号GFX11）机器代码的编译器。这一尝试打破了长期以...

2025-12-18 talkingdev

谷歌与Meta正联手推进一项关键合作，旨在通过名为“TorchTPU”的新项目，大幅提升谷歌自研的张量处理单元（TPU）对PyTorch深度学习框架的原生支持能力。此举的核心目标是削弱英伟达凭借其CUDA软件生态在AI计算市场建立...

2025-12-03 talkingdev

亚马逊云科技（AWS）在自研AI芯片领域持续发力，近日正式发布了其第三代AI训练专用芯片——Trainium3。这款芯片在性能规格上表现亮眼，标志着AWS在降低AI计算成本、提供多元化算力解决方案方面迈出了重要一步。值得注...

2025-09-08 talkingdev

随着数据规模呈指数级增长，单GPU服务器的内存与显存容量已无法满足超大规模AI与数据分析需求。行业巨头英伟达与AMD正竞相攻克集群级数据调度技术壁垒，旨在通过软件生态构建竞争优势。初创公司Voltron Data推出的Th...

2025-08-25 talkingdev

近日，开源社区推出革命性工具库Kernel-builder，专门用于构建和部署跨硬件架构的自定义CUDA内核。该工具通过提供完整的开发框架，显著降低了高性能计算内核从开发到生产环境部署的技术门槛。根据技术文档介绍，开发...

2025-08-24 talkingdev

近日，一项名为《Writing Speed-of-Light Flash Attention for 5090 in CUDA C++》的技术研究引发广泛关注。该研究通过CUDA C++实现了针对5090硬件的光速级Flash Attention算法，显著提升了注意力机制的计算效率。Fl...

2025-08-21 talkingdev

Luminal是由开发者Joe及其团队构建的一款创新型开源GPU编译器，专门针对AI模型自动生成高度优化的GPU内核。与传统机器学习库不同，Luminal采用搜索式编译方法：它将高级模型代码（如PyTorch格式）转换为底层GPU代码...