推理优化的相关内容 - 漫话开发者

2026-06-23 talkingdev

别再让大模型“大材小用”：Pioneer 推出智能路由，自动为任务匹配最优模型

在当今 AI 应用爆发式增长的时代，大型语言模型（LLM）动辄拥有数十亿甚至上千亿参数，其设计初衷是追求“全能”，但在实际落地中，这种“大而全”往往意味着在特定场景下的效率低下和资源浪费。Fastino Labs 推出的 Pio...

2026-06-22 talkingdev

Morph LLM近期发布了一系列针对开源代码生成模型的优化技术，旨在解决当前推理效率瓶颈。首先，团队通过训练一个专注于模型自身编码输出（而非通用互联网数据）的“起草模型”（drafter），在投机解码中取得了显著加速...

2026-04-08 talkingdev

近日，GitHub上开源了一个名为TriAttention的项目，其核心是一种创新的KV（键值）缓存压缩技术。该技术旨在解决大语言模型在处理长上下文任务时，因KV缓存占用内存巨大而难以在消费级或内存受限的GPU上高效部署的行...

2026-02-23 talkingdev

近日，在GitHub上开源名为“ntransformer”的高效大语言模型推理引擎项目，其核心创新在于探索并实现了通过NVMe存储设备直接与GPU通信，绕过CPU和系统内存的传统数据路径，从而在消费级显卡RTX 3090上成功运行了参数量...

2026-02-13 talkingdev

近日，多家领先的AI推理服务提供商，包括Baseten、DeepInfra、Fireworks AI和Together AI，宣布通过在其服务中部署基于NVIDIA Blackwell架构的GPU并运行开源模型，成功将每次推理的令牌成本大幅降低了高达10倍。这一...

2026-01-26 talkingdev

近日，一个名为TTT-Discover的开源项目在GitHub上发布，其核心创新在于将强化学习（Reinforcement Learning）技术应用于大型语言模型（LLMs）的推理（Inference）阶段，而非传统的训练阶段。这一“测试时训练”（Test-...

2026-01-01 talkingdev

近日，一个名为LMCache的开源项目在GitHub上发布，旨在通过创新的键值（KV）缓存加速层，显著提升大型语言模型（LLM）的服务性能。该项目专为LLM推理服务设计，其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...

2025-12-22 talkingdev

人工智能领域知名专家安德烈·卡帕西（Andrej Karpathy）近期发布了其对2025年大语言模型（LLM）发展的年度回顾，系统性地梳理了行业在过去一年中经历的深刻范式转变。报告指出，技术演进的核心驱动力已从单纯追求模...