漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-24 talkingdev

开源|Graphsignal Profiler:生产级AI推理性能剖析利器,助力模型与GPU极致优化

Graphsignal Profiler 是一个面向生产环境的推理性能剖析平台,专为大规模 AI 推理场景设计。它能够跨越模型、推理引擎、GPU 及其他加速器,提供全栈式的性能可见性,帮助工程师精准定位瓶颈并优化推理效率。与传统...

Read More
2026-06-23 talkingdev

别再让大模型“大材小用”:Pioneer 推出智能路由,自动为任务匹配最优模型

在当今 AI 应用爆发式增长的时代,大型语言模型(LLM)动辄拥有数十亿甚至上千亿参数,其设计初衷是追求“全能”,但在实际落地中,这种“大而全”往往意味着在特定场景下的效率低下和资源浪费。Fastino Labs 推出的 Pio...

Read More
2026-06-22 talkingdev

Morph发布代码生成模型优化方案:投机解码速度提升3倍,低端GPU也能跑出162 tok/s

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术,旨在解决当前推理效率瓶颈。首先,团队通过训练一个专注于模型自身编码输出(而非通用互联网数据)的“起草模型”(drafter),在投机解码中取得了显著加速...

Read More
2026-05-12 talkingdev

开源|AutoTTS:无需梯度更新,用编码Agent自动探索测试时扩展策略

在AI大模型推理成本与日俱增的背景下,测试时扩展(Test-Time Scaling)正成为提升模型性能的前沿方向之一。近日,来自开源社区的项目AutoTTS提出了一种全新的自动化策略发现框架,旨在通过编码Agent在回放环境中迭...

Read More
2026-05-08 talkingdev

谷歌Gemma大模型提速3倍!投机解码技术揭秘:小模型“草稿师”成关键

谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升,成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”(Speculative Decoding)技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...

Read More
2026-05-06 talkingdev

Gemma 4 加速推理:多Token预测草案技术实现3倍速提升

Google最新发布的Gemma 4模型通过引入多Token预测(Multi-Token Prediction, MTP)草案机制,显著降低了延迟瓶颈,提升了开发者的交互响应体验。该技术利用一种专门的投机性解码(Speculative Decoding)架构,在不...

Read More
2026-04-08 talkingdev

开源|TriAttention:基于三角函数的KV缓存压缩技术,助力大模型长上下文推理在内存受限GPU上本地部署

近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...

Read More
2026-02-25 talkingdev

推理速度新标杆:Inception Labs发布Mercury 2,号称全球最快推理大语言模型

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2,并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page