研究人员通过前沿AI技术实现了重大突破:利用自主生成的Metal GPU内核,将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型,其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...
Read More近日,开源社区推出革命性工具库Kernel-builder,专门用于构建和部署跨硬件架构的自定义CUDA内核。该工具通过提供完整的开发框架,显著降低了高性能计算内核从开发到生产环境部署的技术门槛。根据技术文档介绍,开发...
Read More本文通过Vulkan(VkCube)渲染旋转立方体的实例,深入浅出地讲解了GPU驱动架构的基础知识,重点剖析了用户模式驱动(UMD)与内核模式驱动(KMD)的协作机制。UMD负责将高级API命令转换为底层GPU指令,而KMD则掌管内...
Read More传统大型语言模型(LLM)系统普遍存在硬件利用率低下的问题,主要源于GPU内核的序列化启动及跨设备通信开销。一支研究团队创新性地开发出专用编译器,可将LLM推理过程自动编译为单一megakernel(超级内核),通过三大...
Read More近日,一篇关于将大语言模型(LLMs)编译为单一MegaKernel以实现低延迟推理的技术文章引发广泛讨论。该技术通过优化编译器设计,将传统需要多个内核调用的LLM推理过程整合为高度融合的单一内核,显著减少了内核启动...
Read More开发者Askannz近日发布了实验性操作系统Munal OS的首个版本,该项目完全采用Rust语言编写,采用unikernel架构设计,并创新性地使用WASM(WebAssembly)沙箱技术实现安全隔离。该系统编译为单一EFI二进制文件,不依赖...
Read More近日,一位研究人员通过OpenAI的o3模型成功发现了Linux内核SMB实现中的一个远程零日漏洞(CVE-2025-37899)。该漏洞的发现过程仅使用了o3 API,展示了AI在网络安全领域的强大潜力。SMB(Server Message Block)协议...
Read More一位安全研究员近日披露了如何利用OpenAI的o3模型发现了Linux内核SMB实现中的一个远程零日漏洞(CVE-2025-37899)。该研究展示了大型语言模型在代码推理能力上的重大突破,研究员直接使用o3 API,无需任何脚手架、代理...
Read More