在当今 AI 应用爆发式增长的时代,大型语言模型(LLM)动辄拥有数十亿甚至上千亿参数,其设计初衷是追求“全能”,但在实际落地中,这种“大而全”往往意味着在特定场景下的效率低下和资源浪费。Fastino Labs 推出的 Pio...
Read MoreMorph LLM近期发布了一系列针对开源代码生成模型的优化技术,旨在解决当前推理效率瓶颈。首先,团队通过训练一个专注于模型自身编码输出(而非通用互联网数据)的“起草模型”(drafter),在投机解码中取得了显著加速...
Read More近日,GitHub上开源了一个名为TriAttention的项目,其核心是一种创新的KV(键值)缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时,因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...
Read More近日,在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目,其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信,绕过CPU和系统内存的传统数据路径,从而在消费级显卡RTX 3090上成功运行了参数量...
Read More近日,多家领先的AI推理服务提供商,包括Baseten、DeepInfra、Fireworks AI和Together AI,宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型,成功将每次推理的令牌成本大幅降低了高达10倍。这一...
Read More近日,一个名为TTT-Discover的开源项目在GitHub上发布,其核心创新在于将强化学习(Reinforcement Learning)技术应用于大型语言模型(LLMs)的推理(Inference)阶段,而非传统的训练阶段。这一“测试时训练”(Test-...
Read More近日,一个名为LMCache的开源项目在GitHub上发布,旨在通过创新的键值(KV)缓存加速层,显著提升大型语言模型(LLM)的服务性能。该项目专为LLM推理服务设计,其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...
Read More人工智能领域知名专家安德烈·卡帕西(Andrej Karpathy)近期发布了其对2025年大语言模型(LLM)发展的年度回顾,系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出,技术演进的核心驱动力已从单纯追求模...
Read More