漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-23 talkingdev

别再让大模型“大材小用”:Pioneer 推出智能路由,自动为任务匹配最优模型

在当今 AI 应用爆发式增长的时代,大型语言模型(LLM)动辄拥有数十亿甚至上千亿参数,其设计初衷是追求“全能”,但在实际落地中,这种“大而全”往往意味着在特定场景下的效率低下和资源浪费。Fastino Labs 推出的 Pio...

Read More
2026-06-22 talkingdev

Morph发布代码生成模型优化方案:投机解码速度提升3倍,低端GPU也能跑出162 tok/s

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术,旨在解决当前推理效率瓶颈。首先,团队通过训练一个专注于模型自身编码输出(而非通用互联网数据)的“起草模型”(drafter),在投机解码中取得了显著加速...

Read More
2026-04-08 talkingdev

开源|TriAttention:基于三角函数的KV缓存压缩技术,助力大模型长上下文推理在内存受限GPU上本地部署

近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...

Read More
2026-02-23 talkingdev

开源|突破显存限制:开发者实现单张RTX 3090运行Llama 3.1 70B,NVMe直连GPU绕过CPU

近日,在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目,其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信,绕过CPU和系统内存的传统数据路径,从而在消费级显卡RTX 3090上成功运行了参数量...

Read More
2026-02-13 talkingdev

开源模型+Blackwell架构:头部推理服务商实现AI成本骤降10倍

近日,多家领先的AI推理服务提供商,包括Baseten、DeepInfra、Fireworks AI和Together AI,宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型,成功将每次推理的令牌成本大幅降低了高达10倍。这一...

Read More
2026-01-26 talkingdev

开源|TTT-Discover:推理时强化学习新范式,让大模型实时自适应任务

近日,一个名为TTT-Discover的开源项目在GitHub上发布,其核心创新在于将强化学习(Reinforcement Learning)技术应用于大型语言模型(LLMs)的推理(Inference)阶段,而非传统的训练阶段。这一“测试时训练”(Test-...

Read More
2026-01-01 talkingdev

开源|LMCache:为LLM服务注入极速KV缓存层,响应速度提升3-10倍

近日,一个名为LMCache的开源项目在GitHub上发布,旨在通过创新的键值(KV)缓存加速层,显著提升大型语言模型(LLM)的服务性能。该项目专为LLM推理服务设计,其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...

Read More
2025-12-22 talkingdev

卡帕西年度回顾:2025年大语言模型的五大范式变革

人工智能领域知名专家安德烈·卡帕西(Andrej Karpathy)近期发布了其对2025年大语言模型(LLM)发展的年度回顾,系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出,技术演进的核心驱动力已从单纯追求模...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page