随着人工智能向智能体(Agent)方向演进,传统的大模型推理基准测试正面临根本性变革。智能体工作负载不再是简单的单轮问答,而是包含多轮交互、工具调用等复杂场景。这种变化给推理引擎带来了前所未有的压力,尤其...
Read More近日,一个名为LMCache的开源项目在GitHub上发布,旨在通过创新的键值(KV)缓存加速层,显著提升大型语言模型(LLM)的服务性能。该项目专为LLM推理服务设计,其核心在于能够跨GPU、CPU、本地磁盘和Redis等多种存储...
Read More互联网工程任务组(IETF)发布了RFC 35140标准文档,正式引入了名为HTTP Do-Not-Stab的新机制。该机制旨在优化网络缓存性能,通过减少不必要的缓存失效来提升用户体验和网络效率。具体来说,HTTP Do-Not-Stab允许服务...
Read More