PyTorch与vLLM近日宣布深化技术整合,新增支持量化、注意力机制定制及异构硬件加速等关键功能。这一合作标志着两大开源框架在优化大语言模型(LLM)推理性能方面取得重要突破:量化技术可降低模型计算资源消耗达4-8...
Read MorevLLM是一款开源的大语言模型推理引擎,近日其团队发布了全新的V1架构。本文深入剖析了vLLM V1架构如何通过OpenAI兼容API服务器和核心引擎高效处理推理请求,实现业界领先的文本生成性能。该架构优化了推理请求的处理...
Read More谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n,该模型采用多模态设计,专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入,展现了强大的跨模态处理能力。为推广该模型,谷歌与AMD、Axolotl、Docker...
Read MoreQwen团队近日发布了其最新的1M上下文模型,展示了在训练过程中逐步扩展上下文能力的技术进展。该模型不仅性能强劲,还支持本地化运行,显著提升了处理长文本任务的效率。此外,Qwen团队还发布了基于vLLM的推理框架,...
Read MoreGemma和Siglip最近发布了一款小型但功能强大的视觉语言模型(VLLM),该模型专为理解和生成与图像相关联的语言而设计。VLLM利用大规模的LAION和LLaVA数据集进行训练,这些数据集包含了大量的图像和相关文本信息,使...
Read MoreDeepspeed推出了一款新软件,旨在与vLLM和文本生成界面竞争,以快速提供语言模型服务。该软件配备了许多最先进的加速功能,初步结果表明,速度提升了2.4倍。
Read More