GPU计算的相关内容 - 漫话开发者

2026-04-06 talkingdev

开源|Gemma Gem：首个完全在设备端通过WebGPU运行谷歌Gemma 4模型的浏览器扩展

近日，GitHub上出现了一个名为Gemma Gem的开源项目，它是一个Chrome浏览器扩展，能够将谷歌最新发布的Gemma 4大型语言模型完全在用户本地设备上运行。该项目最大的技术亮点在于，它通过新兴的WebGPU API来实现高性能...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-18 talkingdev

近日，一个名为BarraCUDA的开源项目在开发者社区引发广泛关注。该项目旨在实现一个能够将NVIDIA CUDA代码（.cu文件）直接编译为AMD GPU（特别是基于RDNA 3架构、代号GFX11）机器代码的编译器。这一尝试打破了长期以...

2025-12-08 talkingdev

NVIDIA近日在GitHub上开源了cuTile Python项目，这是一个专为NVIDIA GPU设计的新型并行编程模型。cuTile的核心目标在于简化高性能并行内核的编写过程，它能够自动利用GPU底层的高级硬件特性，同时确保代码在不同代际...

2025-10-27 talkingdev

一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期，经深度排查发现根本原因在于苹果硅GPU（MPS）后端执行Adam优化器时，由于内存处理机制缺陷导致部分张...

2025-09-08 talkingdev

随着数据规模呈指数级增长，单GPU服务器的内存与显存容量已无法满足超大规模AI与数据分析需求。行业巨头英伟达与AMD正竞相攻克集群级数据调度技术壁垒，旨在通过软件生态构建竞争优势。初创公司Voltron Data推出的Th...

2025-09-04 talkingdev

研究人员通过前沿AI技术实现了重大突破：利用自主生成的Metal GPU内核，将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型，其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...

2025-07-27 talkingdev

Rust-GPU项目组近日宣布其官方网站正式上线，标志着Rust语言向全平台GPU编程迈出重要一步。该项目旨在扩展Rust生态系统，使其能够支持各种GPU架构的编程需求。通过Rust-GPU，开发者可以利用Rust的内存安全性和高性能...