漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-10 talkingdev

英伟达发布Rubin CPX GPU,专为超长上下文推理任务打造

英伟达正式推出全新Rubin CPX GPU,该芯片专为处理超过100万token的超长上下文窗口而设计,标志着人工智能推理基础设施迈向新阶段。采用“分解式推理”架构理念,Rubin CPX针对视频生成、复杂软件开发等长序列上下文任...

Read More
2025-09-08 talkingdev

游戏开发者注意:停止使用PNG格式传输纹理,KTX2与DDS才是更优解

近日,游戏开发领域出现重要技术建议:开发者应停止使用PNG格式存储和传输游戏纹理资源。根据专业技术分析,PNG格式虽具有无损压缩特性,但并非为实时图形渲染场景设计。新兴纹理格式KTX2和DDS凭借其专为GPU定制的技...

Read More
2025-09-08 talkingdev

游戏画面模糊技术解析:从基础Box Blur到高效Dual Kawase算法

实时图形处理领域迎来重要技术突破,最新发布的技术分析文章深度剖析了游戏画面模糊效果的实现原理与性能优化方案。文章系统比较了从传统Box Blur到现代Dual Kawase Blur等多种模糊算法的数学原理与渲染效能,通过GP...

Read More
2025-09-08 talkingdev

分布式GPU运行时竞赛:英伟达与AMD角逐数据中心新战场

随着数据规模呈指数级增长,单GPU服务器的内存与显存容量已无法满足超大规模AI与数据分析需求。行业巨头英伟达与AMD正竞相攻克集群级数据调度技术壁垒,旨在通过软件生态构建竞争优势。初创公司Voltron Data推出的Th...

Read More
2025-09-05 talkingdev

OpenAI与博通联合设计AI芯片,斥资100亿美元订单锁定明年生产

据《金融时报》报道,OpenAI已与美国芯片巨头博通达成合作,双方将共同设计专用于人工智能计算的芯片,并计划于2025年投入生产。OpenAI已承诺投入100亿美元用于芯片订单,这些芯片将完全用于其内部AI模型训练与推理...

Read More
2025-09-04 talkingdev

AI生成Metal内核将PyTorch在苹果设备推理速度提升87%

研究人员通过前沿AI技术实现了重大突破:利用自主生成的Metal GPU内核,将PyTorch在苹果设备上的推理速度平均提升1.87倍。这项研究测试了215个PyTorch模型,其中部分工作负载甚至达到基线性能的数百倍加速。该技术采...

Read More
2025-09-01 talkingdev

深度解析并行化策略:PyTorch与JAX设备网格架构揭秘

当前深度学习训练规模不断扩大,如何高效利用多GPU资源成为关键挑战。最新技术分析揭示了并行化策略的核心在于设备网格(Device Mesh)的智能架构设计。设备网格作为PyTorch和JAX框架的核心抽象,将GPU集群组织为N维...

Read More
2025-08-29 talkingdev

开源|oLLM:轻量级Python库实现消费级GPU运行100K上下文大模型

近日,GitHub上开源项目oLLM引发开发者社区广泛关注。该项目是一个专为大上下文语言模型推理设计的轻量级Python库,其核心突破在于仅需8GB显存的消费级GPU即可运行Llama-3.1-8B-Instruct等模型处理长达10万token的上...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page