英伟达在混合专家模型(Mixture-of-Experts,MoE)的扩展性能方面取得了重大突破。根据官方公布的数据,其最新的GB200 Blackwell NVL72服务器配置,在MoE AI模型上的性能表现相比上一代的Hopper HGX200架构实现了高...
Read More当地时间11月17日,Arm与NVIDIA联合宣布,基于Arm架构的Neoverse系列服务器CPU将能够通过NVIDIA的NVLink Fusion技术与AI加速器实现高效集成。这一技术突破标志着两大芯片巨头在异构计算领域迈出关键一步,未来企业可...
Read More由LinkedIn联合创始人里德·霍夫曼与普利策奖得主、癌症研究员悉达多·穆克吉共同创立的AI药物发现公司Manas AI,在完成1月2460万美元种子轮融资后,近日再获2600万美元种子扩展资金。这家总部位于纽约的AI原生药物研...
Read More芯片设计领域迎来新动态——Andes Technology旗下子公司Condor Computing近日宣布,其自主研发的Cuzco RISC-V处理器核心将亮相2025年Hot Chips高性能芯片研讨会。作为一家专注于RISC-V架构IP授权的企业,Condor的商业...
Read More这篇技术文章系统性地剖析了现代GPU的核心架构,重点阐述了流式多处理器(SM)的组织结构、CUDA核心与Tensor核心的协同工作机制,以及多层次内存体系的优化策略。文章不仅对比了历代GPU产品的规格演进,更从芯片层面深...
Read More计算机科学先驱高德纳(Donald Knuth)在其1974年发表的论文《使用goto语句的结构化编程》中提出的"过早优化是万恶之源"观点,近期再度引发技术社区热议。这篇发表于probablydance.com的深度分析文章指出,尽管现代...
Read MoreMeta旗下FAIR研究团队在arXiv最新论文中提出重大架构革新,通过名为Dynamic Tanh(DyT)的逐元素操作替代传统归一化层,使Transformer模型在保持性能的同时摆脱了对归一化层的依赖。这种S型曲线模拟技术能够自然复现...
Read More微软DeepSpeed团队在GitHub开源了DeepCompile项目,通过引入编译技术显著提升分布式训练性能。该项目针对训练过程中的瓶颈操作进行深度优化,采用改进版的torch compile实现算子融合与代码生成,实测可使关键操作获...
Read More