NVIDIA近日在GitHub上开源了cuTile Python项目,这是一个专为NVIDIA GPU设计的新型并行编程模型。cuTile的核心目标在于简化高性能并行内核的编写过程,它能够自动利用GPU底层的高级硬件特性,同时确保代码在不同代际...
Read More一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期,经深度排查发现根本原因在于苹果硅GPU(MPS)后端执行Adam优化器时,由于内存处理机制缺陷导致部分张...
Read More随着数据规模呈指数级增长,单GPU服务器的内存与显存容量已无法满足超大规模AI与数据分析需求。行业巨头英伟达与AMD正竞相攻克集群级数据调度技术壁垒,旨在通过软件生态构建竞争优势。初创公司Voltron Data推出的Th...
Read More研究人员通过前沿AI技术实现了重大突破:利用自主生成的Metal GPU内核,将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型,其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...
Read MoreRust-GPU项目组近日宣布其官方网站正式上线,标志着Rust语言向全平台GPU编程迈出重要一步。该项目旨在扩展Rust生态系统,使其能够支持各种GPU架构的编程需求。通过Rust-GPU,开发者可以利用Rust的内存安全性和高性能...
Read MoreDeepSeek研究团队以DeepSeek-V3为案例,分享了大型语言模型(LLM)训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制(Multi-head Latent Attention)、专家混合系统(Mixture of Experts)、FP8...
Read More独立开发者历时两年多打造的Anukari 3D物理合成器近日正式发布,这款创新性音频工具成为首批采用GPU进行实时音频处理的虚拟乐器之一。项目创始人在开发者日志中透露,其物理模拟系统的GUI开发难度远超预期,甚至超过...
Read More近日,Answer AI 发布了一个新的轻量级和便携式图形处理器(GPU)计算库,该库基于WebGPU构建。这个新的库可以用于编写跨 GPU 内核,并提供可移植的指令。WebGPU 是一个全新的 Web API,它旨在为现代图形和计算应用...
Read More