漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-08 talkingdev

开源|NVIDIA发布cuTile Python:面向GPU的下一代并行编程模型

NVIDIA近日在GitHub上开源了cuTile Python项目,这是一个专为NVIDIA GPU设计的新型并行编程模型。cuTile的核心目标在于简化高性能并行内核的编写过程,它能够自动利用GPU底层的高级硬件特性,同时确保代码在不同代际...

Read More
2025-10-27 talkingdev

PyTorch隐藏Bug曝光:苹果MPS GPU上Adam优化器内存处理异常导致训练停滞

一位开发者在构建稀疏自编码器时遭遇了罕见的PyTorch框架底层Bug。该问题表现为模型训练损失函数持续处于平台期,经深度排查发现根本原因在于苹果硅GPU(MPS)后端执行Adam优化器时,由于内存处理机制缺陷导致部分张...

Read More
2025-09-08 talkingdev

分布式GPU运行时竞赛:英伟达与AMD角逐数据中心新战场

随着数据规模呈指数级增长,单GPU服务器的内存与显存容量已无法满足超大规模AI与数据分析需求。行业巨头英伟达与AMD正竞相攻克集群级数据调度技术壁垒,旨在通过软件生态构建竞争优势。初创公司Voltron Data推出的Th...

Read More
2025-09-04 talkingdev

AI生成Metal内核将PyTorch在苹果设备推理速度提升87%

研究人员通过前沿AI技术实现了重大突破:利用自主生成的Metal GPU内核,将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型,其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...

Read More
2025-07-27 talkingdev

Rust-GPU正式开源,将支持全平台GPU编程

Rust-GPU项目组近日宣布其官方网站正式上线,标志着Rust语言向全平台GPU编程迈出重要一步。该项目旨在扩展Rust生态系统,使其能够支持各种GPU架构的编程需求。通过Rust-GPU,开发者可以利用Rust的内存安全性和高性能...

Read More
2025-05-21 talkingdev

[论文推荐]DeepSeek-V3训练内幕:揭秘硬件-模型协同设计突破性实践

DeepSeek研究团队以DeepSeek-V3为案例,分享了大型语言模型(LLM)训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制(Multi-head Latent Attention)、专家混合系统(Mixture of Experts)、FP8...

Read More
2025-05-03 talkingdev

开发者耗时两年打造基于3D物理引擎的合成器Anukari,开创GPU音频处理新范式

独立开发者历时两年多打造的Anukari 3D物理合成器近日正式发布,这款创新性音频工具成为首批采用GPU进行实时音频处理的虚拟乐器之一。项目创始人在开发者日志中透露,其物理模拟系统的GUI开发难度远超预期,甚至超过...

Read More
2024-07-15 talkingdev

Answer AI 开源基于WebGPU的轻量级GPU计算

近日,Answer AI 发布了一个新的轻量级和便携式图形处理器(GPU)计算库,该库基于WebGPU构建。这个新的库可以用于编写跨 GPU 内核,并提供可移植的指令。WebGPU 是一个全新的 Web API,它旨在为现代图形和计算应用...

Read More
  1. Next Page