Meta公司内部团队与vLLM、PyTorch展开深度技术合作,成功推出预填充/解码分离技术(prefill/decode disaggregation),这项突破性技术显著提升了大规模语言模型在生产环境中的推理性能。通过将推理过程分解为预填充...
Read More开发者Henry和Roman近日推出开源项目Cactus,这是一个专为智能手机设计的跨平台框架,支持本地部署大型语言模型(LLM)、视觉语言模型(VLM)和文本转语音(TTS)模型。与Ollama专注于笔记本和边缘服务器不同,Cactu...
Read MoreNVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具,该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器,模型推理速度可提升数倍,特别适...
Read More