近日,开源社区推出革命性工具库Kernel-builder,专门用于构建和部署跨硬件架构的自定义CUDA内核。该工具通过提供完整的开发框架,显著降低了高性能计算内核从开发到生产环境部署的技术门槛。根据技术文档介绍,开发...
Read More近日,一项名为《Writing Speed-of-Light Flash Attention for 5090 in CUDA C++》的技术研究引发广泛关注。该研究通过CUDA C++实现了针对5090硬件的光速级Flash Attention算法,显著提升了注意力机制的计算效率。Fl...
Read MoreLuminal是由开发者Joe及其团队构建的一款创新型开源GPU编译器,专门针对AI模型自动生成高度优化的GPU内核。与传统机器学习库不同,Luminal采用搜索式编译方法:它将高级模型代码(如PyTorch格式)转换为底层GPU代码...
Read More这篇技术文章系统性地剖析了现代GPU的核心架构,重点阐述了流式多处理器(SM)的组织结构、CUDA核心与Tensor核心的协同工作机制,以及多层次内存体系的优化策略。文章不仅对比了历代GPU产品的规格演进,更从芯片层面深...
Read More美国上市视频平台Rumble(RUM.O)正考虑以约11.7亿美元(10亿欧元)的全股票交易收购德国AI云服务集团Northern Data AG。这一潜在收购标志着Rumble从视频领域向AI基础设施的战略扩张,也反映了当前AI云计算市场的整...
Read More据路透社报道,英伟达(NVDA.O)上周向代工厂台积电(2330.TW)追加了30万颗H20芯片的订单。消息人士透露,此举是为了应对中国市场的强劲需求,此前特朗普政府已批准H20芯片对华销售。目前英伟达的H20芯片库存已达到60万...
Read More近日,AMD Zen 5处理器的测试结果在技术论坛和社区引发广泛关注。根据Agner论坛发布的测试数据,Zen 5在多项性能指标上展现出显著提升,吸引了217个社区点赞和41条评论。作为AMD下一代处理器架构,Zen 5的测试结果不...
Read More近日,一款名为Hyperpb的高性能Protobuf解析库在Go语言生态中引发关注。该库创新性地将UPB的优化技术引入Go语言环境,通过运行时动态特性和在线PGO(Profile-Guided Optimization)能力,在基准测试中显著超越同类解...
Read More