近日,一项名为《Writing Speed-of-Light Flash Attention for 5090 in CUDA C++》的技术研究引发广泛关注。该研究通过CUDA C++实现了针对5090硬件的光速级Flash Attention算法,显著提升了注意力机制的计算效率。Fl...
Read More这篇技术文章系统性地剖析了现代GPU的核心架构,重点阐述了流式多处理器(SM)的组织结构、CUDA核心与Tensor核心的协同工作机制,以及多层次内存体系的优化策略。文章不仅对比了历代GPU产品的规格演进,更从芯片层面深...
Read MoreLemonade是一个专为现代计算硬件优化的开源推理服务器,致力于帮助开发者和研究者在本地高效运行大型语言模型。该项目通过集成最先进的推理引擎,可自动适配不同厂商的NPU(神经网络处理器)和GPU硬件平台,实现计算...
Read More谷歌Gemini API最新推出的url_context工具引发行业关注,该功能允许大语言模型在响应提示时直接请求URL内容作为上下文补充。技术实现上,当模型调用该工具时,会通过谷歌官方IP向目标网页发起请求,并以原始HTML格式...
Read More近日,一份针对中国19家人工智能实验室的排名报告引发行业关注。该排名并非基于模型原始性能,而是聚焦各机构对AI研究的贡献度。长期领跑的DeepSeek实验室虽近期相对低调,仍保持领先地位。值得注意的是,新兴力量如...
Read MoreAnthropic公司推出的模型上下文协议(Model Context Protocol,MCP)旨在标准化大型语言模型(LLM)对外部工具的使用方式,正迅速成为工具集成的行业规范。该开源框架通过结构化接口,使AI代理能够更高效地调用外部A...
Read MoreBaseten近日推出其Model APIs服务,旨在为开发者提供高性能的开源大语言模型部署解决方案。该服务支持包括Kimi K2、GPT-OSS、DeepSeek、Qwen 3等在内的多款前沿开源模型,承诺提供行业领先的性能表现和极具竞争力的...
Read More苹果公司近日在GitHub开源了Embedding Atlas项目,这是一款专为大规模嵌入数据设计的交互式可视化工具。该工具通过WebGPU加速实现高性能渲染,支持自动数据聚类标注、实时交叉筛选和元数据搜索三大核心功能。其技术...
Read More