漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-09-30 talkingdev

DeepSeek-V3.2-Exp发布:稀疏注意力机制突破长序列处理瓶颈

深度求索公司最新推出的DeepSeek-V3.2-Exp模型引入了创新的稀疏注意力机制,这一技术突破专门针对长上下文序列的训练和推理效率进行了深度优化。该机制通过智能选择关键注意力区域,显著降低了计算复杂度,使得模型...

Read More
2025-08-24 talkingdev

突破性进展:研究者用CUDA C++实现5090光速级Flash Attention算法

近日,一项名为《Writing Speed-of-Light Flash Attention for 5090 in CUDA C++》的技术研究引发广泛关注。该研究通过CUDA C++实现了针对5090硬件的光速级Flash Attention算法,显著提升了注意力机制的计算效率。Fl...

Read More
2025-06-18 talkingdev

解密LLM中的KV缓存机制:从原理到优化实践

KV(键值)缓存是大型语言模型(LLM)推理过程中的关键技术,通过存储注意力计算的中间结果显著提升生成效率。以逐词生成"Time flies fast"为例,传统方式需在每个步骤重复计算"Time"和"flies"的注意力权重,而采用K...

Read More