漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-10-27 talkingdev

FlashPack发布:PyTorch模型加载速度提升3-6倍

机器学习领域迎来重大突破——FlashPack技术正式发布,这项专为PyTorch设计的高吞吐量文件格式与加载机制,成功将模型检查点I/O性能推向新高度。传统模型加载过程中,GPU因等待检查点加载而产生的闲置时间一直是行业痛...

Read More
2025-09-04 talkingdev

AI生成Metal内核将PyTorch在苹果设备推理速度提升87%

研究人员通过前沿AI技术实现了重大突破:利用自主生成的Metal GPU内核,将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型,其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...

Read More
2023-11-20 talkingdev

使用纯Pytorch加速分割任务

我们可以通过使用Torch编译、稀疏化、与Triton一起使用自定义内核以及其他PyTorch性能特性,将分割任务的速度提高8倍。

Read More