近日,GitHub上开源项目oLLM引发开发者社区广泛关注。该项目是一个专为大上下文语言模型推理设计的轻量级Python库,其核心突破在于仅需8GB显存的消费级GPU即可运行Llama-3.1-8B-Instruct等模型处理长达10万token的上...
Read MoreLemonade是一个专为现代计算硬件优化的开源推理服务器,致力于帮助开发者和研究者在本地高效运行大型语言模型。该项目通过集成最先进的推理引擎,可自动适配不同厂商的NPU(神经网络处理器)和GPU硬件平台,实现计算...
Read MorePyTorch与vLLM近日宣布深化技术整合,新增支持量化、注意力机制定制及异构硬件加速等关键功能。这一合作标志着两大开源框架在优化大语言模型(LLM)推理性能方面取得重要突破:量化技术可降低模型计算资源消耗达4-8...
Read MorevLLM是一款开源的大语言模型推理引擎,近日其团队发布了全新的V1架构。本文深入剖析了vLLM V1架构如何通过OpenAI兼容API服务器和核心引擎高效处理推理请求,实现业界领先的文本生成性能。该架构优化了推理请求的处理...
Read More近期GitHub上开源的ConciseHint项目提出了一种创新的大语言模型推理优化技术。该技术通过在生成过程中注入学习或手工设计的简洁提示,能够在保持模型性能的前提下显著提升推理过程的简洁性。这一突破性方法解决了当...
Read More首份关于大语言模型(LLM)服务经济学的综合模型揭示,随着AI公司竞相部署高token消耗的推理模型和智能体,当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现,网络延迟而非带宽成为主要瓶颈,阻碍了公司通过简单...
Read MoreTokasaurus是一款针对高吞吐量工作负载优化的大型语言模型(LLM)推理引擎,由斯坦福大学Scaling Intelligence团队研发。该引擎通过创新的架构设计和算法优化,显著提升了LLM在批量处理任务时的计算效率,为需要大规...
Read MoreOpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架,其核心技术突破体现在三个方面:首先,通过动态推理机制实现多工具链式调用,使AI能根据图像内容自主选择处理工具;其次,创新的V-ToolRL强化...
Read More